DeepSeek V4 Mimarisi
OCR 2 Vizyonu
Görsel-Dil MoE. Karmaşık belgeleri piksel mükemmelliğinde anlama.
Share:
OCR 2 Nedir?
DeepSeek OCR 2, görsel belge anlayışında bir paradigma değişikliğini temsil eder. Görsel anlayışı üretimden ayıran yeni bir 'DeepEncoder V2' mimarisi kullanır. Belgeleri insan benzeri okuma sırasıyla anlamak için eğitilmiştir, bu da karmaşık düzenleri, iç içe tabloları ve matematiksel formülleri piksellerden Markdown/LaTeX'e mükemmel bir şekilde yeniden oluşturmasına olanak tanır.

Şekil 1: Standart OCR vs DeepEncoder V2
OCR 1.0 vs OCR 2.0
DeepSeek OCR 1.0
Sınırlayıcı kutu algılama. Karmaşık düzenler ve el yazısı ile mücadele etti.
DeepSeek OCR 2.0
Uçtan uca Görsel-Dil Modeli. %91 doğruluk. Herhangi bir düzeni, el yazısını ve formülü işler.
OmniDocBench Skoru
Dinamik Döşeme ve Janus-Pro
OCR 2, herhangi bir en boy oranındaki yüksek çözünürlüklü girdileri bozulma olmadan işlemek için bir 'Dinamik Döşeme' stratejisi kullanır. Görsel özellik çıkarma (SigLIP) ve görsel token üretimi (VQ) için ayrı kodlayıcılar kullanan Janus-Pro çerçevesi tarafından desteklenmektedir, bu da hem yüksek anlamsal anlayış hem de hassas ayrıntı yeniden yapılandırması sağlar.
Sıkça Sorulan Sorular
Share:
V4 Sızıntılarını Alın
V4'ü takip eden 50.000'den fazla geliştiriciye katılın.