Architecture DeepSeek V4
DeepSeek MHC
Hyper-connexions contraintes par variété. Un changement de paradigme par rapport aux connexions résiduelles.
Share:
Qu'est-ce que MHC ?
MHC (Manifold-Constrained Hyper-Connections) est un nouveau modèle de connectivité conçu pour résoudre le problème de l'« effondrement de représentation » dans les transformateurs ultra-profonds. Contrairement aux connexions résiduelles traditionnelles (ResNets) qui ajoutent simplement des gradients, MHC impose une contrainte géométrique sur le flux d'informations, garantissant que les représentations de jetons restent sur une variété spécifique et diverse tout au long de la profondeur du réseau.
ResNet TraditionnelDeepSeek MHC
Figure 1 : Architecture Traditionnelle vs Contrainte par Variété
MHC vs Connexions Résiduelles
ResNet Traditionnel
Les gradients explosent ou s'estompent souvent dans les couches profondes, entraînant une instabilité.
DeepSeek MHC
Utilise la normalisation Sinkhorn-Knopp pour limiter strictement les normes de gradient, assurant une convergence fluide même à plus de 1000 couches.
Convergence de la perte d'entraînement
Les Mathématiques : Sinkhorn-Knopp & Variétés
DeepSeek-V4 utilise un algorithme itératif de Sinkhorn-Knopp au sein de chaque bloc d'attention. Cela force la matrice d'attention à être doublement stochastique, projetant efficacement les états latents sur un polytope de Birkhoff. Cette contrainte de variété agit comme un puissant régularisateur, permettant à V4 d'apprendre des modèles de raisonnement plus abstraits sans le bruit de gradients illimités.
Questions Fréquemment Posées
Share:
Lectures connexes
Obtenir les fuites V4
Rejoignez 50 000+ développeurs qui suivent V4.