DeepSeek v4
DeepSeek v4Beta
  • Recursos
  • Notícias & Vazamentos
  • Playground
  • FAQ
Arquitetura DeepSeek V4

DeepSeek MHC

Manifold-Constrained Hyper-Connections. Uma mudança de paradigma em relação às Conexões Residuais.

Share:
Entrar na Lista de Espera

O que é MHC?

MHC (Manifold-Constrained Hyper-Connections) é um novo padrão de conectividade projetado para resolver o problema de "colapso de representação" em transformadores ultraprofundos. Diferente das Conexões Residuais tradicionais (ResNets) que simplesmente adicionam gradientes, a MHC impõe uma restrição geométrica no fluxo de informações, garantindo que as representações de tokens permaneçam em uma variedade específica e diversa ao longo da profundidade da rede.
ResNet TradicionalDeepSeek MHC
Layer NLayer N+1Layer N+2Residual (Add)Layer NMHCLayer N+1Manifold ConstraintLayer N+2

Figura 1: Arquitetura Tradicional vs Manifold-Constrained

MHC vs Conexões Residuais

ResNet Tradicional

Gradientes frequentemente explodem ou desaparecem em camadas profundas, levando à instabilidade.

DeepSeek MHC

Usa normalização Sinkhorn-Knopp para limitar estritamente as normas de gradiente, garantindo convergência suave mesmo em mais de 1000 camadas.

Convergência de Perda de Treinamento

A Matemática: Sinkhorn-Knopp & Variedades

O DeepSeek-V4 utiliza um algoritmo iterativo Sinkhorn-Knopp dentro de cada bloco de atenção. Isso força a matriz de atenção a ser duplamente estocástica, projetando efetivamente os estados latentes em um polítopo de Birkhoff. Essa restrição de variedade atua como um poderoso regularizador, permitindo que o V4 aprenda padrões de raciocínio mais abstratos sem o ruído de gradientes ilimitados.

Perguntas Frequentes

Share:
Leitura Relacionada
  • Previsão da Data de Lançamento do DeepSeek V4
  • Comparação Aprofundada DeepSeek V4 vs GPT-5
  • Evolução do DeepSeek: Do V1 ao V4, A Ascensão da IA Open Source Chinesa
Receber Vazamentos V4
Junte-se a mais de 50.000 desenvolvedores acompanhando o V4.
DeepSeek v4DeepSeek v4

A IA de codificação de próxima geração com arquitetura de memória Engram.

TwitterX (Twitter)Email
Produto
  • Recursos
  • Memória Engram
  • MHC
  • OCR 2 Vision
  • Raciocínio Nativo
  • Lightning Indexer
Recursos
  • Notícias & Vazamentos
  • Playground
  • FAQ
Empresa
  • Sobre
  • Contato
  • Lista de Espera
Legal
  • Política de Cookies
  • Política de Privacidade
  • Termos de Serviço
© 2026 DeepSeek v4 Todos os direitos reservados