DeepSeek V4 आर्किटेक्चर
OCR 2 विजन
विजुअल-लैंग्वेज MoE। जटिल दस्तावेज़ों की पिक्सेल-परफेक्ट समझ।
Share:
OCR 2 क्या है?
DeepSeek OCR 2 दृश्य दस्तावेज़ समझ में एक आदर्श बदलाव का प्रतिनिधित्व करता है। यह एक नए 'DeepEncoder V2' आर्किटेक्चर का उपयोग करता है, जो दृश्य समझ को पीढ़ी से अलग करता है। यह मानव-समान पढ़ने के क्रम में दस्तावेजों को समझने के लिए प्रशिक्षित है, जिससे यह जटिल लेआउट, नेस्टेड टेबल और गणितीय सूत्रों को पिक्सेल से मार्कडाउन/LaTeX में पूरी तरह से पुनर्निर्माण करने की अनुमति देता है।

चित्र 1: मानक OCR बनाम DeepEncoder V2
OCR 1.0 बनाम OCR 2.0
DeepSeek OCR 1.0
बाउंडिंग बॉक्स डिटेक्शन। जटिल लेआउट और हस्तलेखन के साथ संघर्ष किया।
DeepSeek OCR 2.0
एंड-टू-एंड विजुअल-लैंग्वेज मॉडल। 91% सटीकता। किसी भी लेआउट, हस्तलेखन और फॉर्मूले को संभालता है।
OmniDocBench स्कोर
डायनेमिक टाइलिंग और जानूस-प्रो
OCR 2 बिना किसी विरूपण के किसी भी पहलू अनुपात के उच्च-रिज़ॉल्यूशन इनपुट को संभालने के लिए 'डायनेमिक टाइलिंग' रणनीति का उपयोग करता है। यह जानूस-प्रो ढांचे द्वारा संचालित है, जो दृश्य सुविधा निष्कर्षण (SigLIP) और दृश्य टोकन पीढ़ी (VQ) के लिए अलग-अलग एनकोडर का उपयोग करता है, यह सुनिश्चित करता है कि उच्च अर्थपूर्ण समझ और सटीक विस्तार पुनर्निर्माण दोनों।
सामान्य प्रश्न
Share:
V4 लीक प्राप्त करें
50,000+ डेवलपर्स ट्रैकिंग V4 में शामिल हों।