ما هو OCR 2؟
يمثل DeepSeek OCR 2 نقلة نوعية في فهم المستندات البصرية. يستخدم هندسة 'DeepEncoder V2' الجديدة، التي تفصل الفهم البصري عن التوليد. تم تدريبه لفهم المستندات بترتيب قراءة يشبه الإنسان، مما يمكنه من إعادة بناء التخطيطات المعقدة والجداول المتداخلة والصيغ الرياضية بشكل مثالي من البكسلات إلى Markdown/LaTeX.

الشكل 1: OCR القياسي مقابل DeepEncoder V2
OCR 1.0 مقابل OCR 2.0
DeepSeek OCR 1.0
كشف الصندوق المحيط. واجه صعوبة مع التخطيطات المعقدة والكتابة اليدوية.
DeepSeek OCR 2.0
نموذج بصري-لغوي شامل. دقة 91%. يتعامل مع أي تخطيط، وكتابة يدوية، وصيغة.
نتيجة OmniDocBench
التبليط الديناميكي و Janus-Pro
يستخدم OCR 2 استراتيجية 'التبليط الديناميكي' للتعامل مع المدخلات عالية الدقة بأي نسبة عرض إلى ارتفاع دون تشويه. مدعوم بإطار عمل Janus-Pro، الذي يستخدم مشفرات منفصلة لاستخراج الميزات البصرية (SigLIP) وتوليد الرموز البصرية (VQ)، مما يضمن فهماً دلالياً عالياً وإعادة بناء تفاصيل دقيقة.
أسئلة مكررة
Share:
احصل على تسريبات V4
انضم إلى أكثر من 50,000 مطور يتتبعون V4.