Архитектура DeepSeek V4
OCR 2 Зрение
Visual-Language MoE. Пиксельно-идеальное понимание сложных документов.
Share:
Что такое OCR 2?
DeepSeek OCR 2 представляет собой сдвиг парадигмы в визуальном понимании документов. Он использует новую архитектуру 'DeepEncoder V2', которая развязывает визуальное понимание от генерации. Он обучен понимать документы в порядке чтения, похожем на человеческий, позволяя ему идеально реконструировать сложные макеты, вложенные таблицы и математические формулы из пикселей в Markdown/LaTeX.

Рис. 1: Стандартный OCR vs DeepEncoder V2
OCR 1.0 vs OCR 2.0
DeepSeek OCR 1.0
Обнаружение по bounding box. Испытывает трудности со сложными макетами и рукописным вводом.
DeepSeek OCR 2.0
End-to-End Visual-Language Модель. Точность 91%. Справляется с любым макетом, рукописным вводом и формулами.
Оценка OmniDocBench
Динамический Тайлинг и Janus-Pro
OCR 2 использует стратегию 'Динамического Тайлинга' для обработки входных данных высокого разрешения с любым соотношением сторон без искажений. Он работает на базе фреймворка Janus-Pro, который использует отдельные энкодеры для извлечения визуальных признаков (SigLIP) и генерации визуальных токенов (VQ), обеспечивая как высокое семантическое понимание, так и точную реконструкцию деталей.
Часто задаваемые вопросы
Share:
Материалы по теме
Получать утечки V4
Присоединяйтесь к 50 000+ разработчикам, следящим за V4.