ما هو DeepEncoder V2؟

إنها الهندسة البصرية الأساسية لـ OCR 2، تتميز بتصميم منفصل لفهم وتوليد بصري أفضل.

ما هو OmniDocBench؟

معيار شامل لفهم المستندات. سجل OCR 2 نسبة 91.09%، متصدراً الصناعة.

هل يدعم الكتابة اليدوية؟

نعم، لقد حسّن OCR 2 بشكل كبير القدرات في التعرف على النصوص المكتوبة بخط اليد والصيغ الرياضية المعقدة.

هندسة DeepSeek OCR 2 - MoE بصري-لغوي

ما هو OCR 2؟

يمثل DeepSeek OCR 2 نقلة نوعية في فهم المستندات البصرية. يستخدم هندسة 'DeepEncoder V2' الجديدة، التي تفصل الفهم البصري عن التوليد. تم تدريبه لفهم المستندات بترتيب قراءة يشبه الإنسان، مما يمكنه من إعادة بناء التخطيطات المعقدة والجداول المتداخلة والصيغ الرياضية بشكل مثالي من البكسلات إلى Markdown/LaTeX.

الشكل 1: OCR القياسي مقابل DeepEncoder V2

OCR 1.0 مقابل OCR 2.0

DeepSeek OCR 1.0

كشف الصندوق المحيط. واجه صعوبة مع التخطيطات المعقدة والكتابة اليدوية.

DeepSeek OCR 2.0

نموذج بصري-لغوي شامل. دقة 91%. يتعامل مع أي تخطيط، وكتابة يدوية، وصيغة.

نتيجة OmniDocBench

التبليط الديناميكي و Janus-Pro

يستخدم OCR 2 استراتيجية 'التبليط الديناميكي' للتعامل مع المدخلات عالية الدقة بأي نسبة عرض إلى ارتفاع دون تشويه. مدعوم بإطار عمل Janus-Pro، الذي يستخدم مشفرات منفصلة لاستخراج الميزات البصرية (SigLIP) وتوليد الرموز البصرية (VQ)، مما يضمن فهماً دلالياً عالياً وإعادة بناء تفاصيل دقيقة.

ما هو OCR 2؟

الشكل 1: OCR القياسي مقابل DeepEncoder V2

OCR 1.0 مقابل OCR 2.0

DeepSeek OCR 1.0

كشف الصندوق المحيط. واجه صعوبة مع التخطيطات المعقدة والكتابة اليدوية.

DeepSeek OCR 2.0

نموذج بصري-لغوي شامل. دقة 91%. يتعامل مع أي تخطيط، وكتابة يدوية، وصيغة.

نتيجة OmniDocBench

التبليط الديناميكي و Janus-Pro

رؤية OCR 2

ما هو OCR 2؟

OCR 1.0 مقابل OCR 2.0

نتيجة OmniDocBench

التبليط الديناميكي و Janus-Pro

أسئلة مكررة

رؤية OCR 2

ما هو OCR 2؟

OCR 1.0 مقابل OCR 2.0

نتيجة OmniDocBench

التبليط الديناميكي و Janus-Pro

أسئلة مكررة