Что такое DeepEncoder V2?

Это основная визуальная архитектура OCR 2, отличающаяся развязанным дизайном для лучшего визуального понимания и генерации.

Что такое OmniDocBench?

Комплексный бенчмарк для понимания документов. OCR 2 набирает 91.09%, лидируя в отрасли.

Поддерживает ли рукописный ввод?

Да, OCR 2 значительно улучшил возможности распознавания рукописного текста и сложных математических формул.

Архитектура DeepSeek OCR 2

Что такое OCR 2?

DeepSeek OCR 2 представляет собой сдвиг парадигмы в визуальном понимании документов. Он использует новую архитектуру 'DeepEncoder V2', которая развязывает визуальное понимание от генерации. Он обучен понимать документы в порядке чтения, похожем на человеческий, позволяя ему идеально реконструировать сложные макеты, вложенные таблицы и математические формулы из пикселей в Markdown/LaTeX.

Рис. 1: Стандартный OCR vs DeepEncoder V2

OCR 1.0 vs OCR 2.0

DeepSeek OCR 1.0

Обнаружение по bounding box. Испытывает трудности со сложными макетами и рукописным вводом.

DeepSeek OCR 2.0

End-to-End Visual-Language Модель. Точность 91%. Справляется с любым макетом, рукописным вводом и формулами.

Оценка OmniDocBench

Динамический Тайлинг и Janus-Pro

OCR 2 использует стратегию 'Динамического Тайлинга' для обработки входных данных высокого разрешения с любым соотношением сторон без искажений. Он работает на базе фреймворка Janus-Pro, который использует отдельные энкодеры для извлечения визуальных признаков (SigLIP) и генерации визуальных токенов (VQ), обеспечивая как высокое семантическое понимание, так и точную реконструкцию деталей.

Что такое OCR 2?

Рис. 1: Стандартный OCR vs DeepEncoder V2

OCR 1.0 vs OCR 2.0

DeepSeek OCR 1.0

Обнаружение по bounding box. Испытывает трудности со сложными макетами и рукописным вводом.

DeepSeek OCR 2.0

End-to-End Visual-Language Модель. Точность 91%. Справляется с любым макетом, рукописным вводом и формулами.

Оценка OmniDocBench

Динамический Тайлинг и Janus-Pro

OCR 2 Зрение

Что такое OCR 2?

OCR 1.0 vs OCR 2.0

Оценка OmniDocBench

Динамический Тайлинг и Janus-Pro

Часто задаваемые вопросы

OCR 2 Зрение

Что такое OCR 2?

OCR 1.0 vs OCR 2.0

Оценка OmniDocBench

Динамический Тайлинг и Janus-Pro

Часто задаваемые вопросы