DeepSeek v4
DeepSeek v4Beta
  • 기능
  • 뉴스 & 유출
  • 플레이그라운드
  • FAQ
DeepSeek V4 아키텍처

OCR 2 비전

시각-언어 MoE. 복잡한 문서의 픽셀 완벽 이해.

Share:
대기자 명단 가입

OCR 2란?

DeepSeek OCR 2는 시각적 문서 이해의 패러다임 전환을 나타냅니다. 시각적 이해와 생성을 분리하는 새로운 'DeepEncoder V2' 아키텍처를 활용합니다. 인간과 같은 읽기 순서로 문서를 이해하도록 훈련되어 픽셀에서 Markdown/LaTeX로 복잡한 레이아웃, 중첩된 표 및 수학 공식을 완벽하게 재구성할 수 있습니다.
그림 1: 표준 OCR vs DeepEncoder V2

그림 1: 표준 OCR vs DeepEncoder V2

OCR 1.0 vs OCR 2.0

DeepSeek OCR 1.0

경계 상자 감지. 복잡한 레이아웃과 필기체에 어려움을 겪음.

DeepSeek OCR 2.0

엔드투엔드 시각-언어 모델. 91% 정확도. 모든 레이아웃, 필기체 및 공식을 처리.

OmniDocBench 점수

동적 타일링 & Janus-Pro

OCR 2는 '동적 타일링' 전략을 채택하여 왜곡 없이 모든 종횡비의 고해상도 입력을 처리합니다. Janus-Pro 프레임워크로 구동되며, 시각적 특징 추출(SigLIP)과 시각적 토큰 생성(VQ)을 위한 별도의 인코더를 사용하여 높은 의미론적 이해와 정밀한 세부 재구성을 모두 보장합니다.

자주 묻는 질문

Share:
관련 읽을거리
  • DeepSeek V4 출시일 예측
  • DeepSeek V4 vs GPT-5 심층 비교
  • DeepSeek의 진화
V4 유출 정보 받기
V4를 추적하는 50,000명 이상의 개발자와 함께하세요.
DeepSeek v4DeepSeek v4

Engram 메모리 아키텍처를 갖춘 차세대 코딩 AI.

TwitterX (Twitter)Email
제품
  • 기능
  • Engram 메모리
  • MHC
  • OCR 2 Vision
  • 네이티브 추론
  • Lightning Indexer
리소스
  • 뉴스 & 유출
  • 플레이그라운드
  • FAQ
회사
  • 소개
  • 연락처
  • 대기자 명단
법적 고지
  • 쿠키 정책
  • 개인정보 처리방침
  • 이용 약관
© 2026 DeepSeek v4 판권 소유