MHCとは?
MHC(Manifold-Constrained Hyper-Connections)は、超深層トランスフォーマーにおける「表現の崩壊」問題を解決するために設計された新しい接続パターンです。単に勾配を追加する従来の残差接続(ResNet)とは異なり、MHCは情報の流れに幾何学的な制約を課し、トークン表現がネットワークの深さ全体を通して特定の多様なマニホールド上に留まることを保証します。
従来のResNetDeepSeek MHC
図1:従来のアーキテクチャ vs マニホールド制約付きアーキテクチャ
MHC vs 残差接続
従来のResNet
勾配が深い層で爆発または消失し、不安定につながることがよくあります。
DeepSeek MHC
Sinkhorn-Knopp正規化を使用して勾配ノルムを厳密に制限し、1000層以上でもスムーズな収束を保証します。
トレーニング損失の収束
数学:Sinkhorn-Knoppとマニホールド
DeepSeek-V4は、各アテンションブロック内で反復的なSinkhorn-Knoppアルゴリズムを利用します。これにより、アテンション行列が二重確率的になるように強制し、潜在状態をバーコフ多面体に効果的に射影します。このマニホールド制約は強力な正則化項として機能し、V4が無制限の勾配のノイズなしにより抽象的な推論パターンを学習することを可能にします。
よくある質問
Share:
V4のリークを入手
50,000人以上の開発者がV4を追跡しています。