Arquitectura DeepSeek V4
Visión OCR 2
MoE Visual-Lenguaje. Comprensión perfecta de píxeles de documentos complejos.
Share:
¿Qué es OCR 2?
DeepSeek OCR 2 representa un cambio de paradigma en la comprensión visual de documentos. Utiliza la nueva arquitectura 'DeepEncoder V2', que desacopla la comprensión visual de la generación. Está entrenado para comprender documentos en un orden de lectura similar al humano, permitiéndole reconstruir perfectamente diseños complejos, tablas anidadas y fórmulas matemáticas desde píxeles a Markdown/LaTeX.

Figura 1: OCR Estándar vs DeepEncoder V2
OCR 1.0 vs OCR 2.0
DeepSeek OCR 1.0
Detección por cajas delimitadoras. Tiene dificultades con diseños complejos y escritura a mano.
DeepSeek OCR 2.0
Modelo Visual-Lenguaje End-to-End. 91% de Precisión. Maneja cualquier diseño, escritura a mano y fórmula.
Puntuación OmniDocBench
Mosaico Dinámico & Janus-Pro
OCR 2 emplea una estrategia de 'Mosaico Dinámico' para manejar entradas de alta resolución de cualquier relación de aspecto sin distorsión. Está impulsado por el marco Janus-Pro, que utiliza codificadores separados para la extracción de características visuales (SigLIP) y la generación de tokens visuales (VQ), asegurando tanto una alta comprensión semántica como una reconstrucción precisa de los detalles.
Preguntas Frecuentes
Share:
Lectura Relacionada
Obtener Filtraciones V4
Únete a más de 50,000 desarrolladores siguiendo V4.