什么是 OCR 2?
DeepSeek OCR 2 代表了视觉文档理解的范式转变。它利用新的“DeepEncoder V2”架构,将视觉理解与生成解耦。它被训练以类似人类的阅读顺序理解文档,使其能够完美地从像素重建复杂布局、嵌套表格和数学公式为 Markdown/LaTeX。

图 1:标准 OCR vs DeepEncoder V2
OCR 1.0 vs OCR 2.0
DeepSeek OCR 1.0
边界框检测。在复杂布局和手写方面表现挣扎。
DeepSeek OCR 2.0
端到端视觉语言模型。91% 准确率。处理任何布局、手写和公式。
OmniDocBench 分数
动态分块 & Janus-Pro
OCR 2 采用“动态分块”策略来处理任何纵横比的高分辨率输入而不失真。它由 Janus-Pro 框架驱动,该框架使用单独的编码器进行视觉特征提取 (SigLIP) 和视觉 token 生成 (VQ),确保高语义理解和精确的细节重建。
常见问题
Share:
获取 V4 爆料
加入 50,000+ 开发者追踪 V4。