Arquitetura DeepSeek V4
DeepSeek MHC
Manifold-Constrained Hyper-Connections. Uma mudança de paradigma em relação às Conexões Residuais.
Share:
O que é MHC?
MHC (Manifold-Constrained Hyper-Connections) é um novo padrão de conectividade projetado para resolver o problema de "colapso de representação" em transformadores ultraprofundos. Diferente das Conexões Residuais tradicionais (ResNets) que simplesmente adicionam gradientes, a MHC impõe uma restrição geométrica no fluxo de informações, garantindo que as representações de tokens permaneçam em uma variedade específica e diversa ao longo da profundidade da rede.
ResNet TradicionalDeepSeek MHC
Figura 1: Arquitetura Tradicional vs Manifold-Constrained
MHC vs Conexões Residuais
ResNet Tradicional
Gradientes frequentemente explodem ou desaparecem em camadas profundas, levando à instabilidade.
DeepSeek MHC
Usa normalização Sinkhorn-Knopp para limitar estritamente as normas de gradiente, garantindo convergência suave mesmo em mais de 1000 camadas.
Convergência de Perda de Treinamento
A Matemática: Sinkhorn-Knopp & Variedades
O DeepSeek-V4 utiliza um algoritmo iterativo Sinkhorn-Knopp dentro de cada bloco de atenção. Isso força a matriz de atenção a ser duplamente estocástica, projetando efetivamente os estados latentes em um polítopo de Birkhoff. Essa restrição de variedade atua como um poderoso regularizador, permitindo que o V4 aprenda padrões de raciocínio mais abstratos sem o ruído de gradientes ilimitados.
Perguntas Frequentes
Share:
Leitura Relacionada
Receber Vazamentos V4
Junte-se a mais de 50.000 desenvolvedores acompanhando o V4.