DeepSeek v4
DeepSeek v4Beta
  • Fonctionnalités
  • Nouvelles & Fuites
  • Playground
  • FAQ
Architecture DeepSeek V4

DeepSeek MHC

Hyper-connexions contraintes par variété. Un changement de paradigme par rapport aux connexions résiduelles.

Share:
Rejoindre la liste d'attente

Qu'est-ce que MHC ?

MHC (Manifold-Constrained Hyper-Connections) est un nouveau modèle de connectivité conçu pour résoudre le problème de l'« effondrement de représentation » dans les transformateurs ultra-profonds. Contrairement aux connexions résiduelles traditionnelles (ResNets) qui ajoutent simplement des gradients, MHC impose une contrainte géométrique sur le flux d'informations, garantissant que les représentations de jetons restent sur une variété spécifique et diverse tout au long de la profondeur du réseau.
ResNet TraditionnelDeepSeek MHC
Layer NLayer N+1Layer N+2Residual (Add)Layer NMHCLayer N+1Manifold ConstraintLayer N+2

Figure 1 : Architecture Traditionnelle vs Contrainte par Variété

MHC vs Connexions Résiduelles

ResNet Traditionnel

Les gradients explosent ou s'estompent souvent dans les couches profondes, entraînant une instabilité.

DeepSeek MHC

Utilise la normalisation Sinkhorn-Knopp pour limiter strictement les normes de gradient, assurant une convergence fluide même à plus de 1000 couches.

Convergence de la perte d'entraînement

Les Mathématiques : Sinkhorn-Knopp & Variétés

DeepSeek-V4 utilise un algorithme itératif de Sinkhorn-Knopp au sein de chaque bloc d'attention. Cela force la matrice d'attention à être doublement stochastique, projetant efficacement les états latents sur un polytope de Birkhoff. Cette contrainte de variété agit comme un puissant régularisateur, permettant à V4 d'apprendre des modèles de raisonnement plus abstraits sans le bruit de gradients illimités.

Questions Fréquemment Posées

Share:
Lectures connexes
  • Prédiction date de sortie DeepSeek V4
  • Comparaison approfondie DeepSeek V4 vs GPT-5
  • Évolution DeepSeek : De V1 à V4, L'ascension de l'IA Open Source chinoise
Obtenir les fuites V4
Rejoignez 50 000+ développeurs qui suivent V4.
DeepSeek v4DeepSeek v4

L'IA de codage de nouvelle génération avec architecture de mémoire Engram.

TwitterX (Twitter)Email
Produit
  • Fonctionnalités
  • Mémoire Engram
  • MHC
  • OCR 2 Vision
  • Raisonnement natif
  • Indexeur Lightning
Ressources
  • Nouvelles & Fuites
  • Playground
  • FAQ
Société
  • À propos
  • Contact
  • Liste d'attente
Légal
  • Politique de Cookies
  • Politique de Confidentialité
  • Conditions d'Utilisation
© 2026 DeepSeek v4 Tous droits réservés