O que é DeepEncoder V2?

É a arquitetura visual principal do OCR 2, apresentando um design desacoplado para melhor compreensão visual e geração.

O que é OmniDocBench?

Um benchmark abrangente para compreensão de documentos. O OCR 2 atinge 91,09%, liderando a indústria.

Ele suporta caligrafia?

Sim, o OCR 2 melhorou significativamente as capacidades no reconhecimento de texto manuscrito e fórmulas matemáticas complexas.

Arquitetura DeepSeek V4

Visão OCR 2

MoE Visual-Linguagem. Compreensão com perfeição de pixel de documentos complexos.

Entrar na Lista de Espera

O que é OCR 2?

DeepSeek OCR 2 representa uma mudança de paradigma na compreensão visual de documentos. Ele utiliza a nova arquitetura 'DeepEncoder V2', que desacopla a compreensão visual da geração. Ele é treinado para entender documentos em uma ordem de leitura humana, permitindo reconstruir perfeitamente layouts complexos, tabelas aninhadas e fórmulas matemáticas de pixels para Markdown/LaTeX.

Figura 1: OCR Padrão vs DeepEncoder V2

OCR 1.0 vs OCR 2.0

DeepSeek OCR 1.0

Detecção de caixa delimitadora. Luta com layouts complexos e caligrafia.

DeepSeek OCR 2.0

Modelo Visual-Linguagem de ponta a ponta. 91% de Precisão. Lida com qualquer layout, caligrafia e fórmulas.

Pontuação OmniDocBench

Mosaico Dinâmico & Janus-Pro

O OCR 2 emprega uma estratégia de 'Mosaico Dinâmico' para lidar com entradas de alta resolução de qualquer proporção sem distorção. Ele é alimentado pelo framework Janus-Pro, que usa codificadores separados para extração de características visuais (SigLIP) e geração de tokens visuais (VQ), garantindo tanto alta compreensão semântica quanto reconstrução precisa de detalhes.