什麼是 DeepEncoder V2？

它是 OCR 2 的核心視覺架構，具有解耦設計，可實現更好的視覺理解和生成。

什麼是 OmniDocBench？

文檔理解的綜合基準。OCR 2 達到 91.09%，領先業界。

是的，OCR 2 在識別手寫文本和複雜數學公式方面的能力已顯著提高。

DeepSeek V4 架構

視覺語言 MoE。對複雜文檔的像素級完美理解。

DeepSeek OCR 2 代表了視覺文檔理解的範式轉變。它利用新的「DeepEncoder V2」架構，將視覺理解與生成解耦。它被訓練以類似人類的閱讀順序理解文檔，使其能夠完美地從像素重建複雜的佈局、嵌套表格和數學公式為 Markdown/LaTeX。

圖 1：標準 OCR 與 DeepEncoder V2

DeepSeek OCR 1.0

邊界框檢測。在複雜佈局和手寫體方面表現掙扎。

DeepSeek OCR 2.0

端到端視覺語言模型。91% 準確率。處理任何佈局、手寫體和公式。

OCR 2 採用「動態平鋪」策略來處理任何縱橫比的高分辨率輸入而不會失真。它由 Janus-Pro 框架提供支持，該框架使用單獨的編碼器進行視覺特徵提取 (SigLIP) 和視覺標記生成 (VQ)，確保高語義理解和精確的細節重建。