DeepSeek V4 Architektur
DeepSeek MHC
Manifold-Constrained Hyper-Connections. Ein Paradigmenwechsel von Residual Connections.
Share:
Was ist MHC?
MHC (Manifold-Constrained Hyper-Connections) ist ein neuartiges Verbindungsmuster, das entwickelt wurde, um das Problem des "Repräsentationskollapses" in ultratiefen Transformern zu lösen. Im Gegensatz zu herkömmlichen Residual Connections (ResNets), die einfach Gradienten addieren, legt MHC eine geometrische Beschränkung auf den Informationsfluss und stellt sicher, dass Token-Repräsentationen über die gesamte Netzwerktiefe hinweg auf einer spezifischen, vielfältigen Mannigfaltigkeit bleiben.
Traditionelles ResNetDeepSeek MHC
Abbildung 1: Traditionelle vs. Manifold-Constrained Architektur
MHC vs. Residual Connections
Traditionelles ResNet
Gradienten explodieren oder verschwinden oft in tiefen Schichten, was zu Instabilität führt.
DeepSeek MHC
Nutzt Sinkhorn-Knopp-Normalisierung, um Gradientennormen strikt zu begrenzen und eine glatte Konvergenz auch bei 1000+ Schichten zu gewährleisten.
Trainingsverlust-Konvergenz
Die Mathematik: Sinkhorn-Knopp & Mannigfaltigkeiten
DeepSeek-V4 nutzt einen iterativen Sinkhorn-Knopp-Algorithmus innerhalb jedes Attention-Blocks. Dies zwingt die Attention-Matrix dazu, doppelt stochastisch zu sein, und projiziert die latenten Zustände effektiv auf ein Birkhoff-Polytop. Diese Mannigfaltigkeitsbeschränkung wirkt als mächtiger Regularisierer, der es V4 ermöglicht, abstraktere Denkmuster ohne das Rauschen unbegrenzter Gradienten zu lernen.
Häufig gestellte Fragen
Share:
Verwandte Lektüre
V4 Leaks erhalten
Schließen Sie sich 50.000+ Entwicklern an, die V4 verfolgen.