什麼是 OCR 2?
DeepSeek OCR 2 代表了視覺文檔理解的範式轉變。它利用新的「DeepEncoder V2」架構,將視覺理解與生成解耦。它被訓練以類似人類的閱讀順序理解文檔,使其能夠完美地從像素重建複雜的佈局、嵌套表格和數學公式為 Markdown/LaTeX。

圖 1:標準 OCR 與 DeepEncoder V2
OCR 1.0 與 OCR 2.0
DeepSeek OCR 1.0
邊界框檢測。在複雜佈局和手寫體方面表現掙扎。
DeepSeek OCR 2.0
端到端視覺語言模型。91% 準確率。處理任何佈局、手寫體和公式。
OmniDocBench 分數
動態平鋪與 Janus-Pro
OCR 2 採用「動態平鋪」策略來處理任何縱橫比的高分辨率輸入而不會失真。它由 Janus-Pro 框架提供支持,該框架使用單獨的編碼器進行視覺特徵提取 (SigLIP) 和視覺標記生成 (VQ),確保高語義理解和精確的細節重建。
常見問題
Share:
獲取 V4 洩密
加入 50,000 多名正在追蹤 V4 的開發者。