Arquitectura DeepSeek V4
DeepSeek MHC
Hiper-Conexiones de Variedad Restringida. Un cambio de paradigma frente a las Conexiones Residuales.
Share:
¿Qué es MHC?
MHC (Hiper-Conexiones de Variedad Restringida) es un patrón de conectividad novedoso diseñado para abordar el problema del "colapso de representación" en transformers ultra profundos. A diferencia de las Conexiones Residuales tradicionales (ResNets) que simplemente suman gradientes, MHC impone una restricción geométrica en el flujo de información, asegurando que las representaciones de tokens permanezcan en una variedad diversa específica a lo largo de la profundidad de la red.
ResNet TradicionalDeepSeek MHC
Figura 1: Arquitectura Tradicional vs Arquitectura Restringida por Variedad
MHC vs Conexiones Residuales
ResNet Tradicional
Los gradientes a menudo explotan o se desvanecen en capas profundas, llevando a inestabilidad.
DeepSeek MHC
Utiliza normalización Sinkhorn-Knopp para limitar estrictamente las normas de gradiente, asegurando una convergencia suave incluso en 1000+ capas.
Convergencia de Pérdida de Entrenamiento
La Matemáticas: Sinkhorn-Knopp y Variedades
DeepSeek-V4 utiliza un algoritmo iterativo Sinkhorn-Knopp dentro de cada bloque de atención. Esto fuerza a la matriz de atención a ser doblemente estocástica, proyectando efectivamente los estados latentes en un politopo de Birkhoff. Esta restricción de variedad actúa como un poderoso regularizador, permitiendo a V4 aprender patrones de razonamiento más abstractos sin el ruido de gradientes ilimitados.
Preguntas Frecuentes
Share:
Lectura Relacionada
Obtener Filtraciones V4
Únete a más de 50,000 desarrolladores siguiendo V4.