DeepSeek v4Beta

機能
ニュース＆リーク
プレイグラウンド
FAQ

DeepSeek V4 アーキテクチャ

OCR 2 ビジョン

視覚言語MoE。複雑なドキュメントのピクセルパーフェクトな理解。

Share:

ウェイティングリストに参加

OCR 2とは？

DeepSeek OCR 2は、視覚的なドキュメント理解におけるパラダイムシフトを表しています。視覚的理解を生成から分離する新しい「DeepEncoder V2」アーキテクチャを利用しています。人間のような読み取り順序でドキュメントを理解するように訓練されており、複雑なレイアウト、ネストされた表、数式をピクセルからMarkdown/LaTeXに完全に再構築することができます。

図1：標準OCR vs DeepEncoder V2

図1：標準OCR vs DeepEncoder V2

OCR 1.0 vs OCR 2.0

DeepSeek OCR 1.0

バウンディングボックス検出。複雑なレイアウトや手書き文字に苦戦。

DeepSeek OCR 2.0

エンドツーエンドの視覚言語モデル。精度91%。あらゆるレイアウト、手書き文字、数式を処理。

OmniDocBenchスコア

ダイナミックタイリング & Janus-Pro

OCR 2は「ダイナミックタイリング」戦略を採用しており、歪みなくあらゆるアスペクト比の高解像度入力を処理します。Janus-Proフレームワークを搭載しており、視覚的特徴抽出（SigLIP）と視覚的トークン生成（VQ）に別々のエンコーダーを使用することで、高い意味的理解と正確な詳細再構築の両方を保証します。

よくある質問

Share:

関連する読み物

DeepSeek V4 リリース日予測

DeepSeek V4 vs GPT-5 詳細比較

DeepSeekの進化

V4のリークを入手

50,000人以上の開発者がV4を追跡しています。

DeepSeek v4

Engramメモリアーキテクチャを備えた次世代コーディングAI。

製品

機能
Engramメモリ
MHC
OCR 2 Vision
ネイティブ推論
Lightning Indexer

リソース

ニュース＆リーク
プレイグラウンド
FAQ

会社

企業情報
お問い合わせ
ウェイトリスト

法務

Cookieポリシー
プライバシーポリシー
利用規約

© 2026 DeepSeek v4 全著作権所有