Arsitektur DeepSeek V4
DeepSeek MHC
Manifold-Constrained Hyper-Connections. Pergeseran paradigma dari Koneksi Residual.
Share:
Apa itu MHC?
MHC (Manifold-Constrained Hyper-Connections) adalah pola konektivitas baru yang dirancang untuk mengatasi masalah "keruntuhan representasi" dalam transformer ultra-dalam. Berbeda dengan Koneksi Residual tradisional (ResNets) yang hanya menambahkan gradien, MHC memberlakukan batasan geometris pada aliran informasi, memastikan bahwa representasi token tetap berada pada manifold beragam tertentu di seluruh kedalaman jaringan.
ResNet TradisionalDeepSeek MHC
Gambar 1: Arsitektur Tradisional vs Manifold-Constrained
MHC vs Koneksi Residual
ResNet Tradisional
Gradien sering meledak atau menghilang di lapisan dalam, yang menyebabkan ketidakstabilan.
DeepSeek MHC
Menggunakan normalisasi Sinkhorn-Knopp untuk membatasi norma gradien secara ketat, memastikan konvergensi yang mulus bahkan pada 1000+ lapisan.
Konvergensi Kerugian Pelatihan
Matematika: Sinkhorn-Knopp & Manifolds
DeepSeek-V4 menggunakan algoritma Sinkhorn-Knopp berulang dalam setiap blok perhatian. Ini memaksa matriks perhatian menjadi stokastik ganda, secara efektif memproyeksikan keadaan laten ke politop Birkhoff. Batasan manifold ini bertindak sebagai regularisasi yang kuat, memungkinkan V4 untuk mempelajari pola penalaran yang lebih abstrak tanpa gangguan gradien yang tidak terbatas.
Pertanyaan Umum
Share:
Bacaan Terkait
Dapatkan Kebocoran V4
Bergabunglah dengan 50.000+ pengembang yang melacak V4.