¿Qué es DeepEncoder V2?

Es la arquitectura visual central de OCR 2, con un diseño desacoplado para una mejor comprensión y generación visual.

¿Qué es OmniDocBench?

Un benchmark integral para la comprensión de documentos. OCR 2 obtiene un 91.09%, liderando la industria.

¿Soporta escritura a mano?

Sí, OCR 2 ha mejorado significativamente las capacidades en el reconocimiento de texto manuscrito y fórmulas matemáticas complejas.

Arquitectura DeepSeek V4

Visión OCR 2

MoE Visual-Lenguaje. Comprensión perfecta de píxeles de documentos complejos.

Unirse a la Lista de Espera

¿Qué es OCR 2?

DeepSeek OCR 2 representa un cambio de paradigma en la comprensión visual de documentos. Utiliza la nueva arquitectura 'DeepEncoder V2', que desacopla la comprensión visual de la generación. Está entrenado para comprender documentos en un orden de lectura similar al humano, permitiéndole reconstruir perfectamente diseños complejos, tablas anidadas y fórmulas matemáticas desde píxeles a Markdown/LaTeX.

Figura 1: OCR Estándar vs DeepEncoder V2

OCR 1.0 vs OCR 2.0

DeepSeek OCR 1.0

Detección por cajas delimitadoras. Tiene dificultades con diseños complejos y escritura a mano.

DeepSeek OCR 2.0

Modelo Visual-Lenguaje End-to-End. 91% de Precisión. Maneja cualquier diseño, escritura a mano y fórmula.

Puntuación OmniDocBench

Mosaico Dinámico & Janus-Pro

OCR 2 emplea una estrategia de 'Mosaico Dinámico' para manejar entradas de alta resolución de cualquier relación de aspecto sin distorsión. Está impulsado por el marco Janus-Pro, que utiliza codificadores separados para la extracción de características visuales (SigLIP) y la generación de tokens visuales (VQ), asegurando tanto una alta comprensión semántica como una reconstrucción precisa de los detalles.