هندسة DeepSeek V4
DeepSeek MHC
اتصالات فائقة مقيدة بمتشعب. نقلة نوعية من الاتصالات المتبقية.
Share:
ما هو MHC؟
MHC (اتصالات فائقة مقيدة بمتشعب) هو نمط اتصال جديد مصمم لمعالجة مشكلة "انهيار التمثيل" في المحولات فائقة العمق. على عكس الاتصالات المتبقية التقليدية (ResNets) التي تضيف التدرجات ببساطة، تفرض MHC قيوداً هندسية على تدفق المعلومات، مما يضمن بقاء تمثيلات الرموز على متشعب متنوع محدد طوال عمق الشبكة.
ResNet التقليديDeepSeek MHC
الشكل 1: الهندسة المعمارية التقليدية مقابل المقيدة بمتشعب
MHC مقابل الاتصالات المتبقية
ResNet التقليدي
غالباً ما تنفجر التدرجات أو تتلاشى في الطبقات العميقة، مما يؤدي إلى عدم الاستقرار.
DeepSeek MHC
يستخدم تسوية SyncHorn-Knopp لتحديد معايير التدرج بصرامة، مما يضمن تقارباً سلساً حتى عند 1000+ طبقة.
تقارب خسارة التدريب
الرياضيات: SyncHorn-Knopp والمتشعبات
يستخدم DeepSeek-V4 خوارزمية SyncHorn-Knopp تكرارية داخل كل كتلة انتباه. يجبر هذا مصفوفة الانتباه على أن تكون عشوائية مزدوجة، مما يسقط الحالات الكامنة بشكل فعال على متعدد سطوح Birkhoff. يعمل قيد المتشعب هذا كمنظم قوي، مما يسمح لـ V4 بتعلم أنماط تفكير أكثر تجريداً دون ضجيج التدرجات غير المحدودة.
أسئلة مكررة
Share:
قراءة ذات صلة
احصل على تسريبات V4
انضم إلى أكثر من 50,000 مطور يتتبعون V4.