DeepSeek V4 Mimarisi
DeepSeek MHC
Manifold-Constrained Hyper-Connections. Artık bağlantılardan bir paradigma değişimi.
Share:
MHC nedir?
MHC (Manifold-Constrained Hyper-Connections), ultra derin Transformer'lardaki "temsil çöküşü" sorununu çözmek için tasarlanmış yeni bir bağlantı desenidir. Sadece gradyanları ekleyen geleneksel Artık Bağlantıların (ResNets) aksine, MHC bilgi akışına geometrik kısıtlamalar uygular ve token temsillerinin ağ derinliği boyunca belirli bir manifold üzerinde kalmasını sağlar.
Geleneksel ResNetDeepSeek MHC
Şekil 1: Geleneksel vs Manifold Kısıtlamalı Mimari
MHC vs Artık Bağlantılar
Geleneksel ResNet
Gradyanlar genellikle derin katmanlarda patlar veya kaybolur, bu da kararsızlığa yol açar.
DeepSeek MHC
Gradyan normlarını kesinlikle sınırlamak için SyncHorn-Knopp normalizasyonunu kullanır, 1000'den fazla katmanda bile düzgün yakınsama sağlar.
Eğitim Kaybı Yakınsaması
Matematik: SyncHorn-Knopp ve Manifoldlar
DeepSeek-V4, her dikkat bloğunun içinde yinelemeli bir SyncHorn-Knopp algoritması kullanır. Bu, dikkat matrisini çift stokastik olmaya zorlar ve gizli durumları etkili bir şekilde bir Birkhoff politopuna yansıtır. Bu manifold kısıtlaması güçlü bir düzenleyici görevi görür ve V4'ün sınırsız gradyan gürültüsü olmadan daha soyut akıl yürütme kalıpları öğrenmesine izin verir.
Sıkça Sorulan Sorular
Share:
İlgili Okuma
V4 Sızıntılarını Alın
V4'ü takip eden 50.000'den fazla geliştiriciye katılın.