- 首頁
- DeepSeek 新聞
- 如何在本地部署 DeepSeek V4?硬體需求與安裝教學

如何在本地部署 DeepSeek V4?硬體需求與安裝教學
想在本地運行最強大的開源模型?本文詳細介紹了 DeepSeek V4 的硬體需求(VRAM 需求)和分步部署說明,包括量化版本解決方案。
如何在本地部署 DeepSeek V4
1. 簡介
本地 LLM 部署是極客的終極浪漫,也是企業數據隱私的最佳保障。DeepSeek V4 作為開源世界的冠軍,自然支持本地私有部署。但 671B 參數規模可不是開玩笑的。這篇文章將告訴你,你需要多大的「魚缸」才能把這條「巨鯨」裝進你的家用電腦裡。
2. 硬體需求:你的 GPU 扛得住嗎?
DeepSeek V4 是一個 MoE(Mixture of Experts)模型。雖然它的活躍參數較少,但加載完整權重仍然需要海量的 VRAM。
選項 A:完整版(BF16 / FP16)
適合研究機構和富有的愛好者
- 所需 VRAM:~1.3TB - 1.5TB
- 推薦配置:16x NVIDIA A100 (80GB) 或 H100 集群
- 成本:極高,不適合個人。
選項 B:4-bit 量化版(強烈推薦)
適合愛好者和中小企業 由於 MoE 的特性,我們可以只加載活躍專家的權重。結合 4-bit 量化,VRAM 需求顯著降低。
- 所需 VRAM:~350GB - 400GB
- 推薦配置:8x RTX 4090 (24GB) 或 4x A100 (80GB)
- Mac 用戶:配備 192GB 統一記憶體的 Mac Studio / Mac Pro (M2/M3 Ultra) 可以勉強運行經過特別優化的量化版本。
選項 C:極限量化(1.58-bit / 2-bit)
為早期採用者準備 社區專家(如 TheBloke)可能會發布極限量化版本。
- 所需 VRAM:可能 ~150GB
- 推薦配置:2-3 台配備雙 3090/4090 的機器,用於 推理並行化(vLLM / llama.cpp)。
3. 安裝步驟(預發布版)
以下教學基於 Linux (Ubuntu 22.04),假設你已安裝 NVIDIA 驅動程序和 CUDA 12.x。
步驟 1:準備 Python 環境
conda create -n deepseek python=3.10
conda activate deepseek
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install vllm>=0.4.0 # 推薦使用 vLLM 進行高速推理步驟 2:下載模型權重
請耐心等待 HuggingFace 倉庫更新。假設倉庫名稱為 deepseek-ai/deepseek-v4-instruct。
# 安裝 git-lfs
git lfs install
# 下載模型(確保 500GB+ 磁碟空間)
git clone https://huggingface.co/deepseek-ai/deepseek-v4-instruct-awq步驟 3:啟動推理服務
使用 vLLM 啟動 OpenAI API 兼容服務:
python -m vllm.entrypoints.openai.api_server \
--model ./deepseek-v4-instruct-awq \
--trust-remote-code \
--tensor-parallel-size 8 \ # 與你的 GPU 數量匹配
--host 0.0.0.0 \
--port 8000步驟 4:測試調用
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-v4-instruct-awq",
"messages": [{"role": "user", "content": "你好,DeepSeek!"}]
}'4. 量化選項:降低門檻的關鍵
如果你沒有 8x 4090,量化是唯一的出路。
DeepSeek V4 可能會官方提供 AWQ 或 GPTQ 格式的量化權重。
推薦使用 llama.cpp,因為它對 Apple Silicon (Mac) 非常友好。
# 使用 llama.cpp 的 Mac 用戶
./main -m deepseek-v4-q4_k_m.gguf -n 128 --n-gpu-layers 995. 常見問題 (FAQ)
Q:VRAM 不足會崩潰嗎? A:是的。OOM(內存不足)很常見。如果 VRAM 不足,vLLM 甚至無法啟動。請嚴格計算你的總 VRAM。
Q:推理速度慢怎麼辦? A:在多 GPU 推理中,卡間通信(NVLink/PCIe)是瓶頸。如果可能,請使用支持 NVLink 的主板,或者直接使用服務器級設備。
Q:我可以用 CPU 在運行嗎?
A:理論上 llama.cpp 支持 CPU,但對於 671B 參數的模型,生成一個字符可能需要幾分鐘——這沒有實用價值。
註:具體配置參數請參考官方 README。
更多文章

OpenAI 旗艦 GPT-5.4 震撼上線:1M 上下文+原生 Agent,封鎖 DeepSeek V4 突圍路徑!
OpenAI 凌晨突襲發佈其最強旗艦模型 GPT-5.4,搭載 100 萬原生上下文與原生代理引擎,旨在通過技術代差在 DeepSeek V4 發佈前先行築起防御工事。


全網都在等 DeepSeek V4 開飯,為何遲遲不“揭鍋”?真相可能比你想的更硬核!
為什麼 DeepSeek V4 在 3 月 2 日爽約?揭秘其背後的三場頂級豪賭:國產算力底座遷移、多模態全能旗艦與戰略發布窗口期。


輕量化模型之戰:GPT-5.3 Instant 與 Gemini 3.1 Flash-Lite 登場,DeepSeek V4 如何保持領先?
隨著 OpenAI 和 Google 同日發布 GPT-5.3 Instant 與 Gemini 3.1 Flash-Lite,輕量化模型市場再次沸騰。本文深入分析這兩款模型對 OpenClaw 等 Agent 生態的影響,以及 DeepSeek V4 在這一變局中的核心競爭優勢。

新聞通訊
加入社區
訂閱我們的新聞通訊,獲取最新新聞和更新