معماری دیپسیک نسخه ۴
OCR 2 بینایی
Visual-Language MoE. درک کامل اسناد پیچیده در حد پیکسل.
Share:
OCR 2 چیست؟
DeepSeek OCR 2 نشان دهنده یک تغییر پارادایم در درک اسناد بصری است. این از معماری جدید 'DeepEncoder V2' استفاده میکند که درک بصری را از تولید جدا میکند. این مدل برای درک اسناد به ترتیب خواندن انسان آموزش دیده است، که به آن امکان میدهد طرحبندیهای پیچیده، جداول تو در تو و فرمولهای ریاضی را از پیکسلها به Markdown/LaTeX کاملاً بازسازی کند.

شکل ۱: OCR استاندارد در برابر DeepEncoder V2
OCR 1.0 در برابر OCR 2.0
DeepSeek OCR 1.0
تشخیص جعبه مرزی. مشکل با طرحبندیهای پیچیده و دستنویس.
DeepSeek OCR 2.0
مدل بصری-زبانی End-to-End. دقت ۹۱٪. مدیریت هر طرحبندی، دستنویس و فرمول.
امتیاز OmniDocBench
کاشیکاری پویا و Janus-Pro
OCR 2 از یک استراتژی 'کاشیکاری پویا' برای مدیریت ورودیهای با وضوح بالا با هر نسبت ابعادی بدون اعوجاج استفاده میکند. این توسط فریمورک Janus-Pro قدرت گرفته است که از رمزگذارهای جداگانه برای استخراج ویژگیهای بصری (SigLIP) و تولید توکن بصری (VQ) استفاده میکند و هم درک معنایی بالا و هم بازسازی دقیق جزئیات را تضمین میکند.
سوالات متداول
Share:
دریافت افشاگریهای V4
به بیش از ۵۰،۰۰۰ توسعهدهنده بپیوندید که V4 را دنبال میکنند.