معماری دیپسیک نسخه ۴
دیپسیک MHC
ابر-اتصالات محدود شده به منیفولد. یک تغییر پارادایم نسبت به اتصالات پسماند (Residual Connections).
Share:
MHC چیست؟
MHC (ابر-اتصالات محدود شده به منیفولد) یک الگوی اتصال جدید است که برای حل مشکل "فروپاشی نمایش" در ترانسفورمرهای فوق عمیق طراحی شده است. برخلاف اتصالات پسماند سنتی (ResNets) که به سادگی گرادیانها را اضافه میکنند، MHC یک محدودیت هندسی بر جریان اطلاعات اعمال میکند تا اطمینان حاصل شود که نمایش توکنها در سراسر عمق شبکه روی یک منیفولد متنوع خاص باقی میماند.
ResNet سنتیدیپسیک MHC
شکل ۱: معماری سنتی در مقابل معماری محدود به خمینه
MHC در برابر اتصالات پسماند
ResNet سنتی
گرادیانها اغلب در لایههای عمیق منفجر میشوند یا محو میشوند که منجر به ناپایداری میشود.
دیپسیک MHC
از نرمالسازی سینکورن-نپ برای محدود کردن دقیق نرمهای گرادیان استفاده میکند و همگرایی روان را حتی در بیش از ۱۰۰۰ لایه تضمین میکند.
همگرایی تابع ضرر آموزش
ریاضیات: سینکورن-نپ و منیفولدها
دیپسیک نسخه ۴ از یک الگوریتم تکراری سینکورن-نپ در هر بلوک توجه استفاده میکند. این کار ماتریس توجه را مجبور میکند که دوگانه تصادفی باشد، و به طور موثر حالتهای پنهان را روی یک چندوجهی Birkhoff تصویر میکند. این محدودیت منیفولد به عنوان یک تنظیمکننده قدرتمند عمل میکند و به V4 اجازه میدهد الگوهای استدلال انتزاعیتر را بدون نویز گرادیانهای نامحدود یاد بگیرد.
سوالات متداول
Share:
مطالعه مرتبط
دریافت افشاگریهای V4
به بیش از ۵۰،۰۰۰ توسعهدهنده بپیوندید که V4 را دنبال میکنند.