- होम
- DeepSeek समाचार
- DeepSeek V4 को स्थानीय रूप से कैसे तैनात करें? हार्डवेयर आवश्यकताएँ और स्थापना ट्यूटोरियल

DeepSeek V4 को स्थानीय रूप से कैसे तैनात करें? हार्डवेयर आवश्यकताएँ और स्थापना ट्यूटोरियल
क्या आप सबसे शक्तिशाली ओपन-सोर्स मॉडल को स्थानीय रूप से चलाना चाहते हैं? यह लेख DeepSeek V4 की हार्डवेयर आवश्यकताओं (VRAM की ज़रूरतें) और चरण-दर-चरण तैनाती निर्देशों का विवरण देता है, जिसमें क्वांटाइज्ड संस्करण समाधान भी शामिल हैं।
DeepSeek V4 को स्थानीय रूप से कैसे तैनात करें
1. परिचय
स्थानीय LLM तैनाती गीक्स के लिए अंतिम रोमांस है और उद्यम डेटा गोपनीयता के लिए सबसे अच्छी गारंटी है। DeepSeek V4, ओपन-सोर्स दुनिया के चैंपियन के रूप में, स्वाभाविक रूप से स्थानीय निजी तैनाती का समर्थन करता है। लेकिन 671B पैरामीटर पैमाना कोई मज़ाक नहीं है। यह लेख आपको बताएगा कि अपने घरेलू कंप्यूटर में इस "विशाल व्हेल" को फिट करने के लिए आपको कितने बड़े "फिश टैंक" की आवश्यकता है।
2. हार्डवेयर आवश्यकताएँ: क्या आपका GPU इसे संभाल सकता है?
DeepSeek V4 एक मिक्चर ऑफ एक्सपर्ट्स (MoE) मॉडल है। हालाँकि इसमें सक्रिय पैरामीटर कम हैं, पूर्ण भार (Weights) को लोड करने के लिए अभी भी विशाल VRAM की आवश्यकता होती है।
विकल्प A: पूर्ण संस्करण (BF16 / FP16)
अनुसंधान संस्थानों और धनी उत्साही लोगों के लिए उपयुक्त
- आवश्यक VRAM: ~1.3TB - 1.5TB
- अनुशंसित कॉन्फ़िगरेशन: 16x NVIDIA A100 (80GB) या H100 क्लस्टर
- लागत: अत्यधिक उच्च, व्यक्तियों के लिए उपयुक्त नहीं।
विकल्प B: 4-बिट क्वांटाइज्ड संस्करण (अत्यधिक अनुशंसित)
उत्साही लोगों और एसएमई (SMEs) के लिए उपयुक्त MoE विशेषताओं के कारण, हम केवल सक्रिय विशेषज्ञ भार लोड कर सकते हैं। 4-बिट क्वांटाइजेशन के साथ संयुक्त, VRAM आवश्यकताओं में काफी कमी आती है।
- आवश्यक VRAM: ~350GB - 400GB
- अनुशंसित कॉन्फ़िगरेशन: 8x RTX 4090 (24GB) या 4x A100 (80GB)
- Mac उपयोगकर्ता: 192GB यूनिफाइड मेमोरी (M2/M3 Ultra) के साथ Mac Studio / Mac Pro विशेष रूप से अनुकूलित क्वांटाइज्ड संस्करणों को मुश्किल से चला सकते हैं।
विकल्प C: चरम क्वांटाइजेशन (1.58-बिट / 2-बिट)
शुरुआती अपनाने वालों के लिए समुदाय के विशेषज्ञ (जैसे TheBloke) अत्यधिक क्वांटाइज्ड संस्करण जारी कर सकते हैं।
- आवश्यक VRAM: संभवतः ~150GB
- अनुशंसित कॉन्फ़िगरेशन: अनुमान समानांतरीकरण (inference parallelization) (vLLM / llama.cpp) के लिए दोहरे 3090/4090 वाले 2-3 मशीनें।
3. स्थापना चरण (प्री-रिलीज़ संस्करण)
निम्नलिखित ट्यूटोरियल लिनक्स (Ubuntu 22.04) पर आधारित है, यह मानते हुए कि आपने NVIDIA ड्राइवर और CUDA 12.x स्थापित किया है।
चरण 1: Python वातावरण तैयार करें
conda create -n deepseek python=3.10
conda activate deepseek
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install vllm>=0.4.0 # हाई-स्पीड अनुमान के लिए vLLM का उपयोग करने की अनुशंसा की जाती हैचरण 2: मॉडल वेट डाउनलोड करें
कृपया HuggingFace रिपॉजिटरी अपडेट के लिए धैर्यपूर्वक प्रतीक्षा करें। मान लें कि रेपो का नाम deepseek-ai/deepseek-v4-instruct है।
# git-lfs स्थापित करें
git lfs install
# मॉडल डाउनलोड करें (500GB+ डिस्क स्थान सुनिश्चित करें)
git clone https://huggingface.co/deepseek-ai/deepseek-v4-instruct-awqचरण 3: अनुमान सेवा प्रारंभ करें
OpenAI API संगत सेवा शुरू करने के लिए vLLM का उपयोग करें:
python -m vllm.entrypoints.openai.api_server \
--model ./deepseek-v4-instruct-awq \
--trust-remote-code \
--tensor-parallel-size 8 \ # अपने GPU की गिनती से मिलान करें
--host 0.0.0.0 \
--port 8000चरण 4: कॉल का परीक्षण करें
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-v4-instruct-awq",
"messages": [{"role": "user", "content": "नमस्ते, DeepSeek!"}]
}'4. क्वांटाइजेशन विकल्प: बाधा को कम करने की कुंजी
यदि आपके पास 8x 4090 नहीं है, तो क्वांटाइजेशन ही एकमात्र रास्ता है।
DeepSeek V4 आधिकारिक तौर पर AWQ या GPTQ प्रारूप क्वांटाइज्ड वेट प्रदान कर सकता है।
llama.cpp का उपयोग करने की अनुशंसा की जाती है क्योंकि यह Apple सिलिकॉन (Mac) के लिए बेहद अनुकूल है।
# llama.cpp के साथ Mac उपयोगकर्ता
./main -m deepseek-v4-q4_k_m.gguf -n 128 --n-gpu-layers 995. सामान्य प्रश्न (FAQ)
प्रश्न: क्या VRAM अपर्याप्त होने पर यह क्रैश हो जाएगा? उत्तर: हाँ। OOM (आउट ऑफ मेमोरी) आम है। यदि VRAM अपर्याप्त है, तो vLLM शुरू भी नहीं होगा। अपने कुल VRAM की सख्ती से गणना करें।
प्रश्न: क्या होगा यदि अनुमान की गति धीमी है? उत्तर: मल्टी-जीपीयू अनुमान में, इंटर-कार्ड संचार (NVLink/PCIe) बाधा है। यदि संभव हो तो NVLink-सक्षम मदरबोर्ड का उपयोग करें, या सीधे सर्वर-ग्रेड उपकरण पर जाएं।
प्रश्न: क्या मैं इसे CPU पर चला सकता हूँ?
उत्तर: सैद्धांतिक रूप से llama.cpp CPU का समर्थन करता है, लेकिन 671B पैरामीटर मॉडल के लिए, एक अक्षर उत्पन्न करने में मिनट लग सकते हैं - इसका कोई व्यावहारिक मूल्य नहीं है।
नोट: कृपया विशिष्ट कॉन्फ़िगरेशन मापदंडों के लिए आधिकारिक README देखें।
लेखक

विषय - सूची
और पोस्ट

OpenAI का फ्लैगशिप GPT-5.4 लॉन्च: 1M कॉन्टेक्स्ट + नेटिव एजेंट्स के साथ DeepSeek V4 की घेराबंदी!
OpenAI ने अचानक अपना सबसे शक्तिशाली फ्लैगशिप मॉडल GPT-5.4 लॉन्च किया है, जिसमें 10 लाख नेटिव कॉन्टेक्स्ट और एक एजेंट इंजन है, जिसका उद्देश्य DeepSeek V4 की रिलीज से पहले तकनीकी बढ़त बनाना है।


पूरी दुनिया DeepSeek V4 का इंतज़ार कर रही है, फिर भी 'पिटारा' क्यों नहीं खुला? सच्चाई आपकी सोच से कहीं ज़्यादा दिलचस्प है!
DeepSeek V4 ने 2 मार्च की समय सीमा क्यों छोड़ी? देरी के पीछे के तीन बड़े रणनीतिक कारणों का खुलासा: स्वदेशी कंप्यूटिंग बुनियादी ढांचे पर प्रवास, मल्टीमॉडल फ्लैगशिप और रणनीतिक रिलीज विंडो।


लाइटवेट मॉडल की जंग: GPT-5.3 Instant और Gemini 3.1 Flash-Lite का आगाज़ — DeepSeek V4 अपनी बढ़त कैसे बनाए रखेगा?
OpenAI और Google द्वारा एक ही दिन GPT-5.3 Instant और Gemini 3.1 Flash-Lite जारी करने से लाइटवेट मॉडल बाज़ार में हलचल है। OpenClaw जैसे एजेंट इकोसिस्टम पर इनके प्रभाव और DeepSeek V4 के फायदों का विश्लेषण।

न्यूज़लैटर
समुदाय में शामिल हों
नवीनतम समाचार और अपडेट के लिए हमारे न्यूज़लैटर को सब्सक्राइब करें