OCR 2란?
DeepSeek OCR 2는 시각적 문서 이해의 패러다임 전환을 나타냅니다. 시각적 이해와 생성을 분리하는 새로운 'DeepEncoder V2' 아키텍처를 활용합니다. 인간과 같은 읽기 순서로 문서를 이해하도록 훈련되어 픽셀에서 Markdown/LaTeX로 복잡한 레이아웃, 중첩된 표 및 수학 공식을 완벽하게 재구성할 수 있습니다.

그림 1: 표준 OCR vs DeepEncoder V2
OCR 1.0 vs OCR 2.0
DeepSeek OCR 1.0
경계 상자 감지. 복잡한 레이아웃과 필기체에 어려움을 겪음.
DeepSeek OCR 2.0
엔드투엔드 시각-언어 모델. 91% 정확도. 모든 레이아웃, 필기체 및 공식을 처리.
OmniDocBench 점수
동적 타일링 & Janus-Pro
OCR 2는 '동적 타일링' 전략을 채택하여 왜곡 없이 모든 종횡비의 고해상도 입력을 처리합니다. Janus-Pro 프레임워크로 구동되며, 시각적 특징 추출(SigLIP)과 시각적 토큰 생성(VQ)을 위한 별도의 인코더를 사용하여 높은 의미론적 이해와 정밀한 세부 재구성을 모두 보장합니다.
자주 묻는 질문
Share:
V4 유출 정보 받기
V4를 추적하는 50,000명 이상의 개발자와 함께하세요.