- Início
- Notícias DeepSeek
- Arquitetura DeepSeek Engram Explicada: O que precisamos além do MoE?

Arquitetura DeepSeek Engram Explicada: O que precisamos além do MoE?
Mergulho profundo no novo mecanismo de memória 'Engram' do DeepSeek V4. Como ele permite a recuperação de conhecimento O(1) como uma consulta ao dicionário, liberando a computação neural para raciocínio lógico complexo?
DeepSeek Engram: Quebrando Limites do MoE, Abrindo a Era da "Memória Condicional"
2 de fevereiro de 2026 | Mergulho Técnico Profundo
Entre os muitos rumores do DeepSeek V4, além de suas capacidades de codificação de cair o queixo, o que mais entusiasma os geeks é aquele misterioso novo componente — Engram.
Hoje, com o lançamento silencioso do repositório deepseek-ai/Engram e o lançamento do artigo Conditional Memory via Scalable Lookup, finalmente temos um vislumbre dele.
Se não é apenas "outro MoE maior", que problema o Engram resolve?
1. O Ponto de Dor: LLMs Não Devem Apenas "Pensar", Mas Também "Lembrar"
Transformers tradicionais são como gênios extremamente inteligentes sem cadernos. Não importa quão simples seja o conhecimento (por exemplo, "Qual é a capital de Paris?"), eles devem usar computação neural cara (Attention e MLP) para "calculá-lo".
Isso traz dois problemas:
- Desperdício de Computação: Usar computação de GPU para relembrar fatos estáticos é como usar um supercomputador para consultar um dicionário — exagero.
- Gargalo de Capacidade: Os parâmetros do modelo são responsáveis tanto pelo "raciocínio lógico" quanto pelo "armazenamento de conhecimento". Quando queremos um modelo maior, só podemos empilhar mais especialistas em MoE, mas isso aumenta significativamente o uso de VRAM e os custos de treinamento.
A resposta do DeepSeek é: Desacoplar "Conhecimento" e "Raciocínio".
2. O que é Engram?
Simplesmente, Engram é um super dicionário externo baseado em tabelas.
Antes que a rede neural calcule, o módulo Engram funciona primeiro:
- Ele observa o texto de entrada atual (N-gram).
- Ele realiza uma busca de complexidade
O(1)em uma tabela estática massiva. - O vetor recuperado (Memória) é injetado diretamente na espinha dorsal do modelo.
Analogia: Modelos anteriores: Encontram uma palavra nova, usam o poder cerebral para adivinhar o significado (consome poder cerebral). Modelo atual: Encontram uma palavra nova, verificam o dicionário primeiro e pegam a definição para pensar (o poder cerebral é usado apenas para entender o contexto).
3. Arquitetura Central: Lei de Escalonamento em Forma de U
A parte mais emocionante do artigo é a discussão sobre "Alocação de Esparsidade". DeepSeek descobriu uma Lei de Escalonamento em Forma de U:
Dado um total fixo de computação (FLOPs) e contagem de parâmetros:
- Se tudo for atribuído ao MoE (computação pura), o modelo se torna burro porque a memória é insuficiente.
- Se tudo for atribuído ao Engram (memória pura), o modelo se torna burro porque a capacidade de raciocínio é insuficiente.
DeepSeek V4 (Engram-27B) encontrou esse ponto de equilíbrio perfeito.
Ao introduzir o Engram, o V4 conseguiu com sucesso:
- Liberar camadas rasas: A Análise Mecanística mostra que as camadas rasas não precisam mais lutar para reconstruir padrões de linguagem simples; elas podem apenas "consultar" a tabela.
- Aprofundar a profundidade efetiva: Como as camadas rasas são poupadas, as camadas profundas podem se concentrar mais no raciocínio matemático complexo e na lógica do código. É por isso que a capacidade de codificação do V4 (HumanEval+) disparou.
4. Por que isso é importante para os desenvolvedores?
-
Implantação Local Mais Amigável: A busca do Engram é determinística, suportando Eficiência Consciente da Infraestrutura. Isso significa que essa enorme "tabela de memória" pode ser colocada em RAM do Sistema barata, sem ocupar a preciosa VRAM.
- Previsão: Futuras GPUs de consumo com 16 GB de VRAM, emparelhadas com 64 GB de RAM do sistema, serão capazes de executar modelos Engram de parâmetros extremamente grandes.
-
Potencial para Contexto Infinito: Embora o Engram em si seja uma busca N-gram, essa abordagem de "memória externa" fornece uma nova solução para lidar com Contexto de nível de milhão — não há necessidade de enfiar cada Token no Cache KV, mas recuperar sob demanda.
5. Resumo
O DeepSeek V4 não está apenas "empilhando" parâmetros, mas realizando uma cirurgia na eficiência arquitetônica. O aparecimento do Engram marca a evolução de grandes modelos de "redes neurais" únicas para arquiteturas híbridas "neurais + simbólicas".
Para nós desenvolvedores esperando pelos pesos do V4, a melhor notícia é: DeepSeek ainda insiste em código aberto.
Referências:
Autor

Mais posts

OpenAI lança GPT-5.4: 1M de contexto + Agentes nativos para barrar o DeepSeek V4!
A OpenAI lançou de surpresa o seu modelo topo de gama GPT-5.4, com 1 milhão de contexto nativo e um motor de agentes, visando construir uma barreira tecnológica antes do lançamento do DeepSeek V4.


Toda a rede espera o banquete do DeepSeek V4, por que a panela ainda não abriu? A verdade é mais 'hardcore' do que você pensa!
Por que o DeepSeek V4 faltou ao encontro de 2 de março? Revelamos as três grandes apostas por trás do atraso: migração para a infraestrutura de computação nacional, carro-chefe multimodal e janela estratégica de lançamento.


A guerra dos modelos leves: GPT-5.3 Instant e Gemini 3.1 Flash-Lite chegam – Como o DeepSeek V4 mantém a liderança?
Com o lançamento simultâneo do GPT-5.3 Instant e Gemini 3.1 Flash-Lite pela OpenAI e Google, o mercado de modelos leves está em ebulição. Análise do impacto nos ecossistemas de Agentes como o OpenClaw e as vantagens competitivas do DeepSeek V4.

Newsletter
Junte-se à Comunidade
Assine nossa newsletter para as últimas notícias e atualizações