Архитектура DeepSeek V4
DeepSeek MHC
Гипер-соединения с ограничением на многообразии. Сдвиг парадигмы по сравнению с остаточными соединениями.
Share:
Что такое MHC?
MHC (Гипер-соединения с ограничением на многообразии) — это новая схема соединений, разработанная для решения проблемы "коллапса представлений" в сверхглубоких трансформерах. В отличие от традиционных остаточных соединений (ResNet), которые просто добавляют градиенты, MHC накладывает геометрическое ограничение на поток информации, гарантируя, что представления токенов остаются на определенном разнообразном многообразии по всей глубине сети.
Традиционный ResNetDeepSeek MHC
Рис. 1: Традиционная архитектура vs Архитектура с ограничениями многообразия
MHC против Остаточных соединений
Традиционный ResNet
Градиенты часто взрываются или исчезают в глубоких слоях, что приводит к нестабильности.
DeepSeek MHC
Использует нормализацию Синхорна-Кноппа для строгого ограничения норм градиентов, обеспечивая плавную сходимость даже на 1000+ слоях.
Сходимость потерь обучения
Математика: Синхорн-Кнопп и Многообразия
DeepSeek-V4 использует итеративный алгоритм Синхорна-Кноппа внутри каждого блока внимания. Это заставляет матрицу внимания быть дважды стохастической, эффективно проецируя скрытые состояния на многогранник Биркгофа. Это ограничение многообразия действует как мощный регуляризатор, позволяя V4 изучать более абстрактные паттерны рассуждений без шума неограниченных градиентов.
Часто задаваемые вопросы
Share:
Материалы по теме
Получать утечки V4
Присоединяйтесь к 50 000+ разработчикам, следящим за V4.