DeepEncoder V2 क्या है?

यह OCR 2 का मुख्य दृश्य वास्तुकला है, जिसमें बेहतर दृश्य समझ और पीढ़ी के लिए एक डिकूपल्ड डिज़ाइन है।

OmniDocBench क्या है?

दस्तावेज़ समझ के लिए एक व्यापक बेंचमार्क। OCR 2 ने 91.09% स्कोर किया, जो उद्योग का नेतृत्व करता है।

क्या यह लिखावट का समर्थन करता है?

हाँ, OCR 2 में हस्तलिखित पाठ और जटिल गणित सूत्रों को पहचानने में काफी सुधार हुआ है।

DeepSeek V4 आर्किटेक्चर

OCR 2 विजन

विजुअल-लैंग्वेज MoE। जटिल दस्तावेज़ों की पिक्सेल-परफेक्ट समझ।

प्रतीक्षा सूची में शामिल हों

OCR 2 क्या है?

DeepSeek OCR 2 दृश्य दस्तावेज़ समझ में एक आदर्श बदलाव का प्रतिनिधित्व करता है। यह एक नए 'DeepEncoder V2' आर्किटेक्चर का उपयोग करता है, जो दृश्य समझ को पीढ़ी से अलग करता है। यह मानव-समान पढ़ने के क्रम में दस्तावेजों को समझने के लिए प्रशिक्षित है, जिससे यह जटिल लेआउट, नेस्टेड टेबल और गणितीय सूत्रों को पिक्सेल से मार्कडाउन/LaTeX में पूरी तरह से पुनर्निर्माण करने की अनुमति देता है।

चित्र 1: मानक OCR बनाम DeepEncoder V2

OCR 1.0 बनाम OCR 2.0

DeepSeek OCR 1.0

बाउंडिंग बॉक्स डिटेक्शन। जटिल लेआउट और हस्तलेखन के साथ संघर्ष किया।

DeepSeek OCR 2.0

एंड-टू-एंड विजुअल-लैंग्वेज मॉडल। 91% सटीकता। किसी भी लेआउट, हस्तलेखन और फॉर्मूले को संभालता है।

OmniDocBench स्कोर

डायनेमिक टाइलिंग और जानूस-प्रो

OCR 2 बिना किसी विरूपण के किसी भी पहलू अनुपात के उच्च-रिज़ॉल्यूशन इनपुट को संभालने के लिए 'डायनेमिक टाइलिंग' रणनीति का उपयोग करता है। यह जानूस-प्रो ढांचे द्वारा संचालित है, जो दृश्य सुविधा निष्कर्षण (SigLIP) और दृश्य टोकन पीढ़ी (VQ) के लिए अलग-अलग एनकोडर का उपयोग करता है, यह सुनिश्चित करता है कि उच्च अर्थपूर्ण समझ और सटीक विस्तार पुनर्निर्माण दोनों।

सामान्य प्रश्न

OmniDocBench स्कोर

डायनेमिक टाइलिंग और जानूस-प्रो