Apa itu DeepEncoder V2?

Ini adalah arsitektur visual inti dari OCR 2, menampilkan desain yang dipisahkan untuk pemahaman visual dan generasi yang lebih baik.

Apa itu OmniDocBench?

Tolok ukur komprehensif untuk pemahaman dokumen. OCR 2 mencetak 91.09%, memimpin industri.

Apakah mendukung tulisan tangan?

Ya, OCR 2 memiliki kemampuan yang meningkat secara signifikan dalam mengenali teks tulisan tangan dan rumus matematika yang kompleks.

Arsitektur DeepSeek V4

Visi OCR 2

Visual-Language MoE. Pemahaman sempurna piksel dari dokumen kompleks.

Gabung Daftar Tunggu

Apa itu OCR 2?

DeepSeek OCR 2 mewakili pergeseran paradigma dalam pemahaman dokumen visual. Ini menggunakan arsitektur 'DeepEncoder V2' baru, yang memisahkan pemahaman visual dari generasi. Ini dilatih untuk memahami dokumen dalam urutan membaca seperti manusia, memungkinkannya untuk merekonstruksi tata letak yang kompleks, tabel bersarang, dan rumus matematika dengan sempurna dari piksel ke Markdown/LaTeX.

Gambar 1: OCR Standar vs DeepEncoder V2

OCR 1.0 vs OCR 2.0

DeepSeek OCR 1.0

Deteksi kotak pembatas. Berjuang dengan tata letak yang kompleks dan tulisan tangan.

DeepSeek OCR 2.0

Model Bahasa-Visual End-to-End. Akurasi 91%. Menangani tata letak, tulisan tangan, dan rumus apa pun.

Skor OmniDocBench

Dynamic Tiling & Janus-Pro

OCR 2 menggunakan strategi 'Dynamic Tiling' untuk menangani input resolusi tinggi dengan rasio aspek apa pun tanpa distorsi. Ini didukung oleh kerangka kerja Janus-Pro, yang menggunakan encoder terpisah untuk ekstraksi fitur visual (SigLIP) dan generasi token visual (VQ), memastikan baik pemahaman semantik tinggi maupun rekonstruksi detail yang tepat.

Pertanyaan Umum

Bacaan Terkait

Prediksi Tanggal Rilis DeepSeek V4

Perbandingan Mendalam DeepSeek V4 vs GPT-5

Evolusi DeepSeek

Dapatkan Kebocoran V4

Bergabunglah dengan 50.000+ pengembang yang melacak V4.