OCR 2とは?
DeepSeek OCR 2は、視覚的なドキュメント理解におけるパラダイムシフトを表しています。視覚的理解を生成から分離する新しい「DeepEncoder V2」アーキテクチャを利用しています。人間のような読み取り順序でドキュメントを理解するように訓練されており、複雑なレイアウト、ネストされた表、数式をピクセルからMarkdown/LaTeXに完全に再構築することができます。

図1:標準OCR vs DeepEncoder V2
OCR 1.0 vs OCR 2.0
DeepSeek OCR 1.0
バウンディングボックス検出。複雑なレイアウトや手書き文字に苦戦。
DeepSeek OCR 2.0
エンドツーエンドの視覚言語モデル。精度91%。あらゆるレイアウト、手書き文字、数式を処理。
OmniDocBenchスコア
ダイナミックタイリング & Janus-Pro
OCR 2は「ダイナミックタイリング」戦略を採用しており、歪みなくあらゆるアスペクト比の高解像度入力を処理します。Janus-Proフレームワークを搭載しており、視覚的特徴抽出(SigLIP)と視覚的トークン生成(VQ)に別々のエンコーダーを使用することで、高い意味的理解と正確な詳細再構築の両方を保証します。
よくある質問
Share:
V4のリークを入手
50,000人以上の開発者がV4を追跡しています。