什么是 MHC?
MHC (流形约束超连接) 是一种新颖的连接模式,旨在解决超深 Transformers 中的“表征坍缩”问题。与简单相加梯度的传统残差连接 (ResNets) 不同,MHC 对信息流施加几何约束,确保 Token 表征在整个网络深度中保持在特定的多样化流形上。
传统 ResNetDeepSeek MHC
图 1:传统架构 vs 流形约束架构
MHC vs 残差连接
传统 ResNet
梯度通常在深层爆炸或消失,导致不稳定。
DeepSeek MHC
使用 Sinkhorn-Knopp 归一化严格限制梯度范数,即使在 1000+ 层也能确保平滑收敛。
训练损失收敛
数学原理: Sinkhorn-Knopp 与流形
DeepSeek-V4 在每个注意力块中利用迭代 Sinkhorn-Knopp 算法。这强制注意力矩阵为双随机矩阵,有效地将潜在状态投影到 Birkhoff 多胞体上。这种流形约束充当强大的正则化器,允许 V4 学习更抽象的推理模式,而没有无界梯度的噪声。
常见问题
Share:
获取 V4 爆料
加入 50,000+ 开发者追踪 V4。