DeepEncoder V2란 무엇인가요?

데이터 시각적 이해와 생성을 위한 분리된 설계를 특징으로 하는 OCR 2의 핵심 시각적 아키텍처입니다.

OmniDocBench란 무엇인가요?

문서 이해를 위한 포괄적인 벤치마크입니다. OCR 2는 91.09%를 기록하며 업계를 선도합니다.

필기체를 지원하나요?

네, OCR 2는 필기 텍스트와 복잡한 수학 공식을 인식하는 기능이 크게 향상되었습니다.

DeepSeek V4 아키텍처

OCR 2 비전

시각-언어 MoE. 복잡한 문서의 픽셀 완벽 이해.

대기자 명단 가입

OCR 2란?

DeepSeek OCR 2는 시각적 문서 이해의 패러다임 전환을 나타냅니다. 시각적 이해와 생성을 분리하는 새로운 'DeepEncoder V2' 아키텍처를 활용합니다. 인간과 같은 읽기 순서로 문서를 이해하도록 훈련되어 픽셀에서 Markdown/LaTeX로 복잡한 레이아웃, 중첩된 표 및 수학 공식을 완벽하게 재구성할 수 있습니다.

그림 1: 표준 OCR vs DeepEncoder V2

OCR 1.0 vs OCR 2.0

DeepSeek OCR 1.0

경계 상자 감지. 복잡한 레이아웃과 필기체에 어려움을 겪음.

DeepSeek OCR 2.0

엔드투엔드 시각-언어 모델. 91% 정확도. 모든 레이아웃, 필기체 및 공식을 처리.

OmniDocBench 점수

동적 타일링 & Janus-Pro

OCR 2는 '동적 타일링' 전략을 채택하여 왜곡 없이 모든 종횡비의 고해상도 입력을 처리합니다. Janus-Pro 프레임워크로 구동되며, 시각적 특징 추출(SigLIP)과 시각적 토큰 생성(VQ)을 위한 별도의 인코더를 사용하여 높은 의미론적 이해와 정밀한 세부 재구성을 모두 보장합니다.

OCR 2 비전

OCR 2란?

OCR 1.0 vs OCR 2.0

OmniDocBench 점수

동적 타일링 & Janus-Pro

자주 묻는 질문

OCR 2 비전

OCR 2란?

OCR 1.0 vs OCR 2.0

OmniDocBench 점수

동적 타일링 & Janus-Pro

자주 묻는 질문