DeepSeek V4 아키텍처
DeepSeek MHC
Manifold-Constrained Hyper-Connections. 잔차 연결(Residual Connections)로부터의 패러다임 전환.
Share:
MHC란 무엇인가?
MHC(Manifold-Constrained Hyper-Connections)는 초심층 트랜스포머의 '표현 붕괴' 문제를 해결하기 위해 설계된 새로운 연결 패턴입니다. 단순히 기울기를 더하는 기존의 잔차 연결(ResNet)과 달리, MHC는 정보 흐름에 기하학적 제약을 가하여 토큰 표현이 네트워크 깊이 전체에 걸쳐 특정하고 다양한 다양체 상에 머물도록 보장합니다.
전통적인 ResNetDeepSeek MHC
그림 1: 전통적인 아키텍처 vs Manifold-Constrained 아키텍처
MHC vs 잔차 연결
전통적인 ResNet
깊은 층에서 기울기가 폭발하거나 소실되어 불안정성을 초래합니다.
DeepSeek MHC
Sinkhorn-Knopp 정규화를 사용하여 기울기 노름을 엄격하게 제한하고, 1000개 이상의 층에서도 부드러운 수렴을 보장합니다.
훈련 손실 수렴
수학: Sinkhorn-Knopp & 다양체
DeepSeek-V4는 각 어텐션 블록 내에서 반복적인 Sinkhorn-Knopp 알고리즘을 사용합니다. 이는 어텐션 행렬이 이중 확률적이 되도록 강제하여 잠재 상태를 버코프 폴리토프에 효과적으로 투영합니다. 이 다양체 제약은 강력한 정규화 장치로 작용하여 V4가 제한 없는 기울기의 노이즈 없이 더 추상적인 추론 패턴을 학습할 수 있게 합니다.
자주 묻는 질문
Share:
V4 유출 정보 받기
V4를 추적하는 50,000명 이상의 개발자와 함께하세요.