DeepSeek v4
DeepSeek v4Beta
  • Функции
  • Новости и утечки
  • Песочница
  • FAQ
  1. Главная
  2. Новости DeepSeek
  3. Архитектура DeepSeek Engram: Что нам нужно, кроме MoE?
Архитектура DeepSeek Engram: Что нам нужно, кроме MoE?
2026/02/02

Архитектура DeepSeek Engram: Что нам нужно, кроме MoE?

Share:
Глубокое погружение в новый механизм памяти DeepSeek V4 'Engram'. Как он обеспечивает поиск знаний O(1), подобно поиску в словаре, высвобождая нейронные вычисления для сложного логического рассуждения?

DeepSeek Engram: Преодолевая пределы MoE, открывая эру «Условной памяти»

2 февраля 2026 г. | Технический обзор

Среди множества слухов о DeepSeek V4, помимо его потрясающих возможностей кодирования, больше всего гиков волнует этот таинственный новый компонент — Engram.

Сегодня, с тихим запуском репозитория deepseek-ai/Engram и публикацией статьи Conditional Memory via Scalable Lookup, мы наконец-то можем взглянуть на него.

Если это не просто «еще один MoE побольше», какую проблему решает Engram?

1. Болевая точка: LLM должны не только «думать», но и «помнить»

Традиционные трансформеры похожи на чрезвычайно умных гениев без блокнотов. Каким бы простым ни было знание (например, «Какая столица у Парижа?»), они должны использовать дорогие нейронные вычисления (Attention и MLP), чтобы «вычислить» его.

Это создает две проблемы:

  1. Трата вычислений: Использование вычислений GPU для запоминания статических фактов похоже на использование суперкомпьютера для поиска в словаре — излишество.
  2. Ограничение емкости: Параметры модели отвечают как за «логическое рассуждение», так и за «хранение знаний». Когда мы хотим модель побольше, мы можем только добавлять больше экспертов MoE, но это значительно увеличивает использование VRAM и затраты на обучение.

Ответ DeepSeek: Разделить «Знание» и «Рассуждение».

2. Что такое Engram?

Проще говоря, Engram — это внешний суперсловарь на основе таблиц.

Перед тем как нейронная сеть начнет вычисления, модуль Engram срабатывает первым:

  1. Он наблюдает за текущим входным текстом (N-gram).
  2. Он выполняет поиск сложности O(1) в массивной статической таблице.
  3. Извлеченный вектор (Память) напрямую внедряется в основу модели.

Аналогия: Предыдущие модели: Встречают новое слово, используют мозги, чтобы угадать значение (тратят мозги). Текущая модель: Встречают новое слово, сначала проверяют словарь и берут определение для размышления (мозги используются только для понимания контекста).

3. Ядро архитектуры: U-образный закон масштабирования (U-Shaped Scaling Law)

Самая захватывающая часть статьи — это обсуждение «Распределения разреженности». DeepSeek открыл U-образный закон масштабирования:

При фиксированных общих вычислениях (FLOPs) и количестве параметров:

  • Если все отдать под MoE (чистые вычисления), модель становится глупой, потому что памяти недостаточно.
  • Если все отдать под Engram (чистая память), модель становится глупой, потому что способности к рассуждению недостаточно.

DeepSeek V4 (Engram-27B) нашел эту идеальную точку баланса.

Введя Engram, V4 успешно:

  1. Освободил неглубокие слои: Механистический анализ показывает, что неглубоким слоям больше не нужно бороться за реконструкцию простых языковых паттернов; они могут просто «посмотреть» в таблице.
  2. Углубил эффективную глубину: Поскольку неглубокие слои сэкономлены, глубокие слои могут больше сосредоточиться на сложном математическом рассуждении и логике кода. Вот почему способность к кодированию V4 (HumanEval+) взлетела до небес.

4. Почему это важно для разработчиков?

  1. Более дружелюбное локальное развертывание: Поиск Engram детерминирован, поддерживая Эффективность с учетом инфраструктуры. Это означает, что эту огромную «таблицу памяти» можно разместить в дешевой системной RAM, не занимая драгоценную VRAM.

    • Прогноз: Будущие потребительские GPU с 16 ГБ VRAM в паре с 64 ГБ системной RAM смогут запускать модели Engram с чрезвычайно большим количеством параметров.
  2. Потенциал для бесконечного контекста: Хотя Engram сам по себе является поиском N-gram, этот подход «внешней памяти» предоставляет новое решение для обработки контекста миллионного уровня — не нужно запихивать каждый токен в KV Cache, а извлекать по требованию.

5. Резюме

DeepSeek V4 не просто «накапливает» параметры, а проводит операцию над архитектурной эффективностью. Появление Engram знаменует эволюцию больших моделей от одиночных «нейронных сетей» к гибридным архитектурам «нейронные + символические».

Для нас, разработчиков, ожидающих веса V4, лучшая новость: DeepSeek по-прежнему настаивает на открытом исходном коде.


Ссылки:

  • Статья: Conditional Memory via Scalable Lookup
  • GitHub: deepseek-ai/Engram
Share:
All Posts

Author

avatar for DeepSeek UIO
DeepSeek UIO

Table of Contents

DeepSeek Engram: Преодолевая пределы MoE, открывая эру «Условной памяти»1. Болевая точка: LLM должны не только «думать», но и «помнить»2. Что такое Engram?3. Ядро архитектуры: U-образный закон масштабирования (U-Shaped Scaling Law)4. Почему это важно для разработчиков?5. Резюме

More Posts

OpenAI запускает флагман GPT-5.4: 2 млн контекста + нативные агенты для блокировки DeepSeek V4!

OpenAI запускает флагман GPT-5.4: 2 млн контекста + нативные агенты для блокировки DeepSeek V4!

OpenAI внезапно представила свою самую мощную флагманскую модель GPT-5.4 с 1 миллионми нативного контекста и движком агентов, стремясь создать технологический барьер перед выходом DeepSeek V4.

avatar for DeepSeek UIO
DeepSeek UIO
2026/03/06
Весь интернет ждет выхода DeepSeek V4 – почему «блюдо» до сих пор не подано? Правда может быть куда серьезнее, чем вы думаете!

Весь интернет ждет выхода DeepSeek V4 – почему «блюдо» до сих пор не подано? Правда может быть куда серьезнее, чем вы думаете!

Почему DeepSeek V4 пропустил запуск 2 марта? Раскрываем три стратегические причины задержки: миграция на отечественную вычислительную базу, мультимодальный флагман и стратегическое окно релиза.

avatar for DeepSeek UIO
DeepSeek UIO
2026/03/05
Война легких моделей: GPT-5.3 Instant и Gemini 3.1 Flash-Lite вступают в бой — как DeepSeek V4 сохраняет лидерство?
DeepSeek V4News

Война легких моделей: GPT-5.3 Instant и Gemini 3.1 Flash-Lite вступают в бой — как DeepSeek V4 сохраняет лидерство?

С одновременным выпуском GPT-5.3 Instant и Gemini 3.1 Flash-Lite от OpenAI и Google рынок легких моделей снова закипает. Анализ влияния этих моделей на экосистемы агентов, такие как OpenClaw, и конкурентные преимущества DeepSeek V4.

avatar for DeepSeek UIO
DeepSeek UIO
2026/03/04

Новостная рассылка

Присоединяйтесь к сообществу

Подпишитесь на нашу рассылку для получения последних новостей и обновлений

DeepSeek v4DeepSeek v4

ИИ для программирования следующего поколения с архитектурой памяти Engram.

TwitterX (Twitter)Email
Продукт
  • Функции
  • Память Engram
  • MHC
  • OCR 2 Зрение
  • Нативное Рассуждение
  • Молниеносный Индексатор
Ресурсы
  • Новости и утечки
  • Песочница
  • FAQ
Компания
  • О нас
  • Контакты
  • Список ожидания
Юридическая информация
  • Политика использования файлов cookie
  • Политика конфиденциальности
  • Условия использования
© 2026 DeepSeek v4 Все права защищены