- होम
- DeepSeek समाचार
- DeepSeek Engram आर्किटेक्चर की व्याख्या: हमें MoE के अलावा और क्या चाहिए?

DeepSeek Engram आर्किटेक्चर की व्याख्या: हमें MoE के अलावा और क्या चाहिए?
DeepSeek V4 के नए 'Engram' मेमोरी मैकेनिज्म में गहरा गोता। यह कैसे शब्दकोश लुकअप की तरह O(1) ज्ञान पुनर्प्राप्ति को सक्षम करता है, और जटिल तार्किक तर्क के लिए तंत्रिका गणना को मुक्त करता है?
DeepSeek Engram: MoE की सीमाओं को तोड़ना, "सशर्त स्मृति" के युग को खोलना
2 फरवरी 2026 | तकनीकी गहरा गोता
DeepSeek V4 की कई अफवाहों के बीच, इसकी आश्चर्यजनक कोडिंग क्षमताओं के अलावा, जो चीज़ गीक्स को सबसे ज़्यादा उत्साहित करती है, वह है वह रहस्यमय नया घटक — Engram।
आज, deepseek-ai/Engram रिपॉजिटरी के शांत लॉन्च और पेपर Conditional Memory via Scalable Lookup के रिलीज़ के साथ, हमें आखिरकार इसकी एक झलक मिलती है।
यदि यह केवल "एक और बड़ा MoE" नहीं है, तो Engram किस समस्या को हल करता है?
1. दर्द बिंदु: LLM को केवल "सोचना" नहीं चाहिए, बल्कि "याद रखना" भी चाहिए
पारंपरिक ट्रांसफॉर्मर बिना नोटबुक के बेहद स्मार्ट जीनियस की तरह हैं। ज्ञान चाहे कितना भी सरल क्यों न हो (उदाहरण के लिए, "पेरिस की राजधानी क्या है?"), उन्हें इसे "गणना" करने के लिए महंगी तंत्रिका गणना (Attention और MLP) का उपयोग करना चाहिए।
यह दो समस्याएं लाता है:
- गणना की बर्बादी: स्थिर तथ्यों को याद करने के लिए GPU गणना का उपयोग करना शब्दकोश में देखने के लिए सुपरकंप्यूटर का उपयोग करने जैसा है — अतिरेक।
- क्षमता की बाधा: मॉडल पैरामीटर "तार्किक तर्क" और "ज्ञान भंडारण" दोनों के लिए जिम्मेदार हैं। जब हम एक बड़ा मॉडल चाहते हैं, तो हम केवल अधिक MoE विशेषज्ञों को ढेर कर सकते हैं, लेकिन इससे VRAM उपयोग और प्रशिक्षण लागत में काफी वृद्धि होती है।
DeepSeek का उत्तर है: "ज्ञान" और "तर्क" को अलग करें।
2. Engram क्या है?
सीधे शब्दों में कहें तो, Engram एक बाहरी, टेबल-आधारित सुपर शब्दकोश है।
तंत्रिका नेटवर्क की गणना करने से पहले, Engram मॉड्यूल पहले काम करता है:
- यह वर्तमान इनपुट टेक्स्ट (N-gram) का निरीक्षण करता है।
- यह एक विशाल, स्थिर तालिका में
O(1)जटिलता लुकअप करता है। - पुनर्प्राप्त वेक्टर (मेमोरी) को सीधे मॉडल की रीढ़ में इंजेक्ट किया जाता है।
सादृश्य: पिछले मॉडल: एक नए शब्द का सामना करते हैं, अर्थ का अनुमान लगाने के लिए मस्तिष्क की शक्ति का उपयोग करते हैं (मस्तिष्क की शक्ति की खपत करते हैं)। वर्तमान मॉडल: एक नए शब्द का सामना करते हैं, पहले शब्दकोश की जाँच करते हैं, और सोचने के लिए परिभाषा लेते हैं (मस्तिष्क की शक्ति का उपयोग केवल संदर्भ को समझने के लिए किया जाता है)।
3. मुख्य आर्किटेक्चर: U-आकार का स्केलिंग कानून (U-Shaped Scaling Law)
पेपर का सबसे रोमांचक हिस्सा "विरलता आवंटन" पर चर्चा है। DeepSeek ने एक U-आकार का स्केलिंग कानून खोजा:
निश्चित कुल गणना (FLOPs) और पैरामीटर गणना को देखते हुए:
- यदि सभी को MoE (शुद्ध गणना) को सौंपा जाता है, तो मॉडल गूंगा हो जाता है क्योंकि स्मृति अपर्याप्त है।
- यदि सभी को Engram (शुद्ध स्मृति) को सौंपा जाता है, तो मॉडल गूंगा हो जाता है क्योंकि तर्क क्षमता अपर्याप्त है।
DeepSeek V4 (Engram-27B) ने उस सही संतुलन बिंदु को पाया।
Engram को पेश करके, V4 ने सफलतापूर्वक:
- उथली परतों को मुक्त किया: यंत्रवत विश्लेषण से पता चलता है कि उथली परतों को अब सरल भाषा पैटर्न के पुनर्निर्माण के लिए संघर्ष करने की आवश्यकता नहीं है; वे बस तालिका को "देख" सकते हैं।
- प्रभावी गहराई को गहरा किया: चूंकि उथली परतों को बचाया जाता है, इसलिए गहरी परतें जटिल गणितीय तर्क और कोड तर्क पर अधिक ध्यान केंद्रित कर सकती हैं। यही कारण है कि V4 की कोडिंग क्षमता (HumanEval+) आसमान छू गई।
4. डेवलपर्स के लिए यह महत्वपूर्ण क्यों है?
-
अधिक अनुकूल स्थानीय तैनाती: Engram का लुकअप नियतात्मक है, जो इन्फ्रास्ट्रक्चर-जागरूक दक्षता का समर्थन करता है। इसका मतलब है कि इस विशाल "मेमोरी टेबल" को कीमती VRAM पर कब्जा किए बिना, सस्ते सिस्टम RAM में रखा जा सकता है।
- भविष्यवाणी: 16GB VRAM वाले भविष्य के उपभोक्ता GPU, 64GB सिस्टम RAM के साथ मिलकर, अत्यंत बड़े पैरामीटर Engram मॉडल चलाने में सक्षम होंगे।
-
अनंत संदर्भ की क्षमता: हालांकि Engram स्वयं N-gram लुकअप है, यह "बाहरी मेमोरी" दृष्टिकोण मिलियन-स्तर के संदर्भ को संभालने के लिए एक नया समाधान प्रदान करता है — हर टोकन को KV कैश में भरने की आवश्यकता नहीं है, बल्कि मांग पर पुनर्प्राप्त करें।
5. सारांश
DeepSeek V4 केवल पैरामीटर को "ढेर" नहीं कर रहा है, बल्कि आर्किटेक्चरल दक्षता पर सर्जरी कर रहा है। Engram की उपस्थिति एकल "तंत्रिका नेटवर्क" से "तंत्रिका + प्रतीकात्मक" हाइब्रिड आर्किटेक्चर तक बड़े मॉडल के विकास को चिह्नित करती है।
हम डेवलपर्स के लिए जो V4 वेट का इंतजार कर रहे हैं, सबसे अच्छी खबर है: DeepSeek अभी भी ओपन सोर्स पर जोर देता है।
संदर्भ:
लेखक

और पोस्ट

OpenAI का फ्लैगशिप GPT-5.4 लॉन्च: 1M कॉन्टेक्स्ट + नेटिव एजेंट्स के साथ DeepSeek V4 की घेराबंदी!
OpenAI ने अचानक अपना सबसे शक्तिशाली फ्लैगशिप मॉडल GPT-5.4 लॉन्च किया है, जिसमें 10 लाख नेटिव कॉन्टेक्स्ट और एक एजेंट इंजन है, जिसका उद्देश्य DeepSeek V4 की रिलीज से पहले तकनीकी बढ़त बनाना है।


पूरी दुनिया DeepSeek V4 का इंतज़ार कर रही है, फिर भी 'पिटारा' क्यों नहीं खुला? सच्चाई आपकी सोच से कहीं ज़्यादा दिलचस्प है!
DeepSeek V4 ने 2 मार्च की समय सीमा क्यों छोड़ी? देरी के पीछे के तीन बड़े रणनीतिक कारणों का खुलासा: स्वदेशी कंप्यूटिंग बुनियादी ढांचे पर प्रवास, मल्टीमॉडल फ्लैगशिप और रणनीतिक रिलीज विंडो।


लाइटवेट मॉडल की जंग: GPT-5.3 Instant और Gemini 3.1 Flash-Lite का आगाज़ — DeepSeek V4 अपनी बढ़त कैसे बनाए रखेगा?
OpenAI और Google द्वारा एक ही दिन GPT-5.3 Instant और Gemini 3.1 Flash-Lite जारी करने से लाइटवेट मॉडल बाज़ार में हलचल है। OpenClaw जैसे एजेंट इकोसिस्टम पर इनके प्रभाव और DeepSeek V4 के फायदों का विश्लेषण।

न्यूज़लैटर
समुदाय में शामिल हों
नवीनतम समाचार और अपडेट के लिए हमारे न्यूज़लैटर को सब्सक्राइब करें