- خانه
- اخبار دیپسیک
- توضیح معماری DeepSeek Engram: علاوه بر MoE به چه چیزی نیاز داریم؟

توضیح معماری DeepSeek Engram: علاوه بر MoE به چه چیزی نیاز داریم؟
غواصی عمیق در مکانیزم حافظه جدید 'Engram' در DeepSeek V4. چگونه بازیابی دانش O(1) مانند جستجوی فرهنگ لغت را امکانپذیر میکند و محاسبات عصبی را برای استدلال منطقی پیچیده آزاد میکند؟
DeepSeek Engram: شکستن محدودیتهای MoE، گشودن عصر "حافظه شرطی"
2 فوریه 2026 | غواصی فنی عمیق
در میان شایعات بسیار در مورد DeepSeek V4، علاوه بر قابلیتهای کدنویسی حیرتانگیز آن، آنچه بیش از همه گیکها را هیجانزده میکند، آن جزء جدید مرموز است — Engram.
امروز، با راهاندازی آرام مخزن deepseek-ai/Engram و انتشار مقاله Conditional Memory via Scalable Lookup، سرانجام نگاهی به آن میاندازیم.
اگر این فقط "یک MoE بزرگتر دیگر" نیست، Engram چه مشکلی را حل میکند؟
1. نقطه درد: LLMها نه تنها باید "فکر کنند"، بلکه باید "به خاطر بسپارند"
ترانسفورمرهای سنتی مانند نوابغ بسیار باهوش بدون دفترچه یادداشت هستند. دانش هر چقدر هم ساده باشد (مثلاً "پایتخت پاریس کجاست؟")، آنها باید از محاسبات عصبی گران قیمت (Attention و MLP) برای "محاسبه" آن استفاده کنند.
این دو مشکل را به همراه دارد:
- اتلاف محاسبات: استفاده از محاسبات GPU برای به خاطر آوردن حقایق ثابت مانند استفاده از یک ابررایانه برای جستجو در یک فرهنگ لغت است — زیادهروی.
- تنگنای ظرفیت: پارامترهای مدل مسئول "استدلال منطقی" و "ذخیرهسازی دانش" هستند. وقتی ما یک مدل بزرگتر میخواهیم، فقط میتوانیم متخصصان MoE بیشتری را روی هم انباشته کنیم، اما این به طور قابل توجهی استفاده از VRAM و هزینههای آموزش را افزایش میدهد.
پاسخ DeepSeek این است: "دانش" و "استدلال" را جدا کنید.
2. Engram چیست؟
به سادگی، Engram یک فوق فرهنگ لغت خارجی مبتنی بر جدول است.
قبل از اینکه شبکه عصبی محاسبه کند، ماژول Engram ابتدا کار میکند:
- متن ورودی فعلی (N-gram) را مشاهده می کند.
- یک جستجوی با پیچیدگی
O(1)در یک جدول ثابت عظیم انجام می دهد. - بردار بازیابی شده (حافظه) مستقیماً به ستون فقرات مدل تزریق می شود.
تمثیل: مدلهای قبلی: با یک کلمه جدید روبرو میشوند، از قدرت مغز برای حدس زدن معنی استفاده میکنند (قدرت مغز را مصرف میکنند). مدل فعلی: با یک کلمه جدید روبرو میشوند، ابتدا فرهنگ لغت را بررسی میکنند و تعریف را برای فکر کردن میگیرند (قدرت مغز فقط برای درک زمینه استفاده میشود).
3. معماری اصلی: قانون مقیاسگذاری U شکل (U-Shaped Scaling Law)
هیجانانگیزترین قسمت مقاله بحث در مورد "تخصیص پراکندگی" است. DeepSeek یک قانون مقیاسگذاری U شکل کشف کرد:
با فرض کل محاسبات ثابت (FLOPs) و تعداد پارامتر:
- اگر همه به MoE (محاسبات خالص) اختصاص داده شود، مدل احمق میشود زیرا حافظه ناکافی است.
- اگر همه به Engram (حافظه خالص) اختصاص داده شود، مدل احمق میشود زیرا توانایی استدلال ناکافی است.
DeepSeek V4 (Engram-27B) آن نقطه تعادل کامل را پیدا کرد.
با معرفی Engram، V4 با موفقیت:
- لایههای کمعمق را آزاد کرد: تحلیل مکانیکی نشان میدهد که لایههای کمعمق دیگر نیازی به تلاش برای بازسازی الگوهای زبان ساده ندارند؛ آنها فقط میتوانند جدول را "جستجو" کنند.
- عمق مؤثر را تعمیق کرد: از آنجا که لایههای کمعمق ذخیره میشوند، لایههای عمیق میتوانند بیشتر بر استدلال ریاضی پیچیده و منطق کد تمرکز کنند. به همین دلیل است که قابلیت کدنویسی V4 (HumanEval+) به شدت افزایش یافت.
4. چرا این برای توسعهدهندگان مهم است؟
-
استقرار محلی دوستانهتر: جستجوی Engram قطعی است و از کارایی آگاه از زیرساخت پشتیبانی میکند. این بدان معناست که این "جدول حافظه" عظیم را میتوان در RAM سیستم ارزان، بدون اشغال VRAM با ارزش قرار داد.
- پیشبینی: GPUهای مصرفی آینده با 16 گیگابایت VRAM، همراه با 64 گیگابایت RAM سیستم، قادر به اجرای مدلهای Engram با پارامترهای بسیار بزرگ خواهند بود.
-
پتانسیل برای زمینه بینهایت: اگرچه Engram خود جستجوی N-gram است، اما این رویکرد "حافظه خارجی" راه حل جدیدی برای مدیریت زمینه سطح میلیون ارائه میدهد — نیازی به پر کردن هر توکن در حافظه پنهان KV نیست، بلکه در صورت تقاضا بازیابی کنید.
5. خلاصه
DeepSeek V4 فقط پارامترها را "روی هم انباشته" نمیکند، بلکه روی کارایی معماری جراحی انجام میدهد. ظهور Engram نشاندهنده تکامل مدلهای بزرگ از "شبکههای عصبی" منفرد به معماریهای ترکیبی "عصبی + نمادین" است.
برای ما توسعهدهندگان که منتظر وزنهای V4 هستیم، بهترین خبر این است: DeepSeek هنوز بر منبع باز اصرار دارد.
منابع:
پستهای بیشتر

عرضه GPT-5.4 پرچمدار OpenAI: با ۱ میلیون زمینه + ایجنتهای بومی برای مهار DeepSeek V4!
شرکت OpenAI به طور غافلگیرانهای قدرتمندترین مدل پرچمدار خود GPT-5.4 را با ۱ میلیون زمینه بومی و موتور ایجنت عرضه کرد تا پیش از انتشار DeepSeek V4، یک سد دفاعی تکنولوژیک ایجاد کند.


همه منتظر DeepSeek V4 هستند، چرا هنوز منتشر نشده؟ واقعیت ممکن است از آنچه فکر میکنید جدیتر باشد!
چرا DeepSeek V4 در تاریخ ۲ مارس منتشر نشد؟ فاش کردن سه قمار بزرگ پشت پرده: مهاجرت به زیرساختهای محاسباتی داخلی، پرچمدار چندمنظوره و پنجره استراتژیک انتشار.


نبرد مدلهای سبک: GPT-5.3 Instant و Gemini 3.1 Flash-Lite وارد میشوند - DeepSeek V4 چگونه پیشتازی خود را حفظ میکند؟
با عرضه همزمان GPT-5.3 Instant و Gemini 3.1 Flash-Lite توسط OpenAI و گوگل، بازار مدلهای سبک دوباره داغ شده است. تحلیل تأثیر بر اکوسیستمهای ایجنت مانند OpenClaw و مزایای رقابتی DeepSeek V4.

خبرنامه
به جامعه بپیوندید
برای دریافت آخرین اخبار و بروزرسانیها در خبرنامه ما مشترک شوید