什么是 DeepEncoder V2？

它是 OCR 2 的核心视觉架构，采用解耦设计以实现更好的视觉理解和生成。

什么是 OmniDocBench？

用于文档理解的综合基准测试。OCR 2 得分 91.09%，领先行业。

是的，OCR 2 在识别手写文本和复杂数学公式方面的能力已显著提高。

DeepSeek V4 架构

视觉语言 MoE。像素级理解复杂文档。

DeepSeek OCR 2 代表了视觉文档理解的范式转变。它利用新的“DeepEncoder V2”架构，将视觉理解与生成解耦。它被训练以类似人类的阅读顺序理解文档，使其能够完美地从像素重建复杂布局、嵌套表格和数学公式为 Markdown/LaTeX。

图 1：标准 OCR vs DeepEncoder V2

DeepSeek OCR 1.0

边界框检测。在复杂布局和手写方面表现挣扎。

DeepSeek OCR 2.0

端到端视觉语言模型。91% 准确率。处理任何布局、手写和公式。

OCR 2 采用“动态分块”策略来处理任何纵横比的高分辨率输入而不失真。它由 Janus-Pro 框架驱动，该框架使用单独的编码器进行视觉特征提取 (SigLIP) 和视觉 token 生成 (VQ)，确保高语义理解和精确的细节重建。