- Главная
- Новости DeepSeek
- Архитектура DeepSeek Engram: Что нам нужно, кроме MoE?

Архитектура DeepSeek Engram: Что нам нужно, кроме MoE?
Глубокое погружение в новый механизм памяти DeepSeek V4 'Engram'. Как он обеспечивает поиск знаний O(1), подобно поиску в словаре, высвобождая нейронные вычисления для сложного логического рассуждения?
DeepSeek Engram: Преодолевая пределы MoE, открывая эру «Условной памяти»
2 февраля 2026 г. | Технический обзор
Среди множества слухов о DeepSeek V4, помимо его потрясающих возможностей кодирования, больше всего гиков волнует этот таинственный новый компонент — Engram.
Сегодня, с тихим запуском репозитория deepseek-ai/Engram и публикацией статьи Conditional Memory via Scalable Lookup, мы наконец-то можем взглянуть на него.
Если это не просто «еще один MoE побольше», какую проблему решает Engram?
1. Болевая точка: LLM должны не только «думать», но и «помнить»
Традиционные трансформеры похожи на чрезвычайно умных гениев без блокнотов. Каким бы простым ни было знание (например, «Какая столица у Парижа?»), они должны использовать дорогие нейронные вычисления (Attention и MLP), чтобы «вычислить» его.
Это создает две проблемы:
- Трата вычислений: Использование вычислений GPU для запоминания статических фактов похоже на использование суперкомпьютера для поиска в словаре — излишество.
- Ограничение емкости: Параметры модели отвечают как за «логическое рассуждение», так и за «хранение знаний». Когда мы хотим модель побольше, мы можем только добавлять больше экспертов MoE, но это значительно увеличивает использование VRAM и затраты на обучение.
Ответ DeepSeek: Разделить «Знание» и «Рассуждение».
2. Что такое Engram?
Проще говоря, Engram — это внешний суперсловарь на основе таблиц.
Перед тем как нейронная сеть начнет вычисления, модуль Engram срабатывает первым:
- Он наблюдает за текущим входным текстом (N-gram).
- Он выполняет поиск сложности
O(1)в массивной статической таблице. - Извлеченный вектор (Память) напрямую внедряется в основу модели.
Аналогия: Предыдущие модели: Встречают новое слово, используют мозги, чтобы угадать значение (тратят мозги). Текущая модель: Встречают новое слово, сначала проверяют словарь и берут определение для размышления (мозги используются только для понимания контекста).
3. Ядро архитектуры: U-образный закон масштабирования (U-Shaped Scaling Law)
Самая захватывающая часть статьи — это обсуждение «Распределения разреженности». DeepSeek открыл U-образный закон масштабирования:
При фиксированных общих вычислениях (FLOPs) и количестве параметров:
- Если все отдать под MoE (чистые вычисления), модель становится глупой, потому что памяти недостаточно.
- Если все отдать под Engram (чистая память), модель становится глупой, потому что способности к рассуждению недостаточно.
DeepSeek V4 (Engram-27B) нашел эту идеальную точку баланса.
Введя Engram, V4 успешно:
- Освободил неглубокие слои: Механистический анализ показывает, что неглубоким слоям больше не нужно бороться за реконструкцию простых языковых паттернов; они могут просто «посмотреть» в таблице.
- Углубил эффективную глубину: Поскольку неглубокие слои сэкономлены, глубокие слои могут больше сосредоточиться на сложном математическом рассуждении и логике кода. Вот почему способность к кодированию V4 (HumanEval+) взлетела до небес.
4. Почему это важно для разработчиков?
-
Более дружелюбное локальное развертывание: Поиск Engram детерминирован, поддерживая Эффективность с учетом инфраструктуры. Это означает, что эту огромную «таблицу памяти» можно разместить в дешевой системной RAM, не занимая драгоценную VRAM.
- Прогноз: Будущие потребительские GPU с 16 ГБ VRAM в паре с 64 ГБ системной RAM смогут запускать модели Engram с чрезвычайно большим количеством параметров.
-
Потенциал для бесконечного контекста: Хотя Engram сам по себе является поиском N-gram, этот подход «внешней памяти» предоставляет новое решение для обработки контекста миллионного уровня — не нужно запихивать каждый токен в KV Cache, а извлекать по требованию.
5. Резюме
DeepSeek V4 не просто «накапливает» параметры, а проводит операцию над архитектурной эффективностью. Появление Engram знаменует эволюцию больших моделей от одиночных «нейронных сетей» к гибридным архитектурам «нейронные + символические».
Для нас, разработчиков, ожидающих веса V4, лучшая новость: DeepSeek по-прежнему настаивает на открытом исходном коде.
Ссылки:
Author

More Posts

OpenAI запускает флагман GPT-5.4: 2 млн контекста + нативные агенты для блокировки DeepSeek V4!
OpenAI внезапно представила свою самую мощную флагманскую модель GPT-5.4 с 1 миллионми нативного контекста и движком агентов, стремясь создать технологический барьер перед выходом DeepSeek V4.


Весь интернет ждет выхода DeepSeek V4 – почему «блюдо» до сих пор не подано? Правда может быть куда серьезнее, чем вы думаете!
Почему DeepSeek V4 пропустил запуск 2 марта? Раскрываем три стратегические причины задержки: миграция на отечественную вычислительную базу, мультимодальный флагман и стратегическое окно релиза.


Война легких моделей: GPT-5.3 Instant и Gemini 3.1 Flash-Lite вступают в бой — как DeepSeek V4 сохраняет лидерство?
С одновременным выпуском GPT-5.3 Instant и Gemini 3.1 Flash-Lite от OpenAI и Google рынок легких моделей снова закипает. Анализ влияния этих моделей на экосистемы агентов, такие как OpenClaw, и конкурентные преимущества DeepSeek V4.

Новостная рассылка
Присоединяйтесь к сообществу
Подпишитесь на нашу рассылку для получения последних новостей и обновлений