什麼是 MHC?
MHC(流形約束超連接)是一種新型連接模式,旨在解決超深 Transformer 中的「表示崩潰」問題。與簡單相加梯度的傳統殘差連接(ResNet)不同,MHC 對信息流施加幾何約束,確保標記表示在整個網絡深度中保持在特定的多樣化流形上。
傳統 ResNetDeepSeek MHC
圖 1:傳統與流形約束架構
MHC 與殘差連接
傳統 ResNet
梯度經常在深層中爆炸或消失,導致不穩定。
DeepSeek MHC
使用 Sinkhorn-Knopp 歸一化嚴格限制梯度範數,確保即使在 1000 多層中也能平滑收斂。
訓練損失收斂
數學:Sinkhorn-Knopp 與流形
DeepSeek-V4 在每個注意力塊內使用迭代 Sinkhorn-Knopp 算法。這強制注意力矩陣為雙隨機的,有效地將潛在狀態投影到 Birkhoff 多胞體上。這種流形約束充當強大的正則化器,允許 V4 學習更抽象的推理模式,而沒有無界梯度的噪聲。
常見問題
Share:
獲取 V4 洩密
加入 50,000 多名正在追蹤 V4 的開發者。