- Inicio
- Noticias de DeepSeek
- ¿Cómo desplegar DeepSeek V4 localmente? Requisitos de hardware y tutorial de instalación

¿Cómo desplegar DeepSeek V4 localmente? Requisitos de hardware y tutorial de instalación
¿Quieres ejecutar el modelo de código abierto más potente localmente? Este artículo detalla los requisitos de hardware de DeepSeek V4 (necesidades de VRAM) y las instrucciones de despliegue paso a paso, incluidas soluciones para versiones cuantizadas.
Cómo desplegar DeepSeek V4 localmente
1. Introducción
El despliegue local de LLM es el romance definitivo para los geeks y la mejor garantía para la privacidad de datos empresariales. DeepSeek V4, como campeón del mundo de código abierto, naturalmente soporta el despliegue privado local. Pero la escala de 671B parámetros no es una broma. Este artículo te dirá qué tan grande debe ser la "pecera" para que quepa esta "ballena gigante" en tu computadora doméstica.
2. Requisitos de Hardware: ¿Puede tu GPU manejarlo?
DeepSeek V4 es un modelo MoE (Mixture of Experts). Aunque tiene menos parámetros activos, cargar los pesos completos aún requiere una VRAM masiva.
Opción A: Versión Completa (BF16 / FP16)
Adecuado para instituciones de investigación y entusiastas adinerados
- VRAM Requerida: ~1.3TB - 1.5TB
- Configuración Recomendada: Clúster de 16x NVIDIA A100 (80GB) o H100
- Costo: Extremadamente alto, no apto para individuos.
Opción B: Versión Cuantizada de 4 bits (Altamente Recomendada)
Adecuado para entusiastas y PYMES Debido a las características de MoE, podemos cargar solo los pesos de expertos activos. Combinado con la cuantización de 4 bits, los requisitos de VRAM se reducen significativamente.
- VRAM Requerida: ~350GB - 400GB
- Configuración Recomendada: 8x RTX 4090 (24GB) o 4x A100 (80GB)
- Usuarios de Mac: Mac Studio / Mac Pro con 192GB de memoria unificada (M2/M3 Ultra) apenas pueden ejecutar versiones cuantizadas especialmente optimizadas.
Opción C: Cuantización Extrema (1.58-bit / 2-bit)
Para los primeros usuarios Expertos de la comunidad (como TheBloke) pueden lanzar versiones extremadamente cuantizadas.
- VRAM Requerida: Potencialmente ~150GB
- Configuración Recomendada: 2-3 máquinas con doble 3090/4090 para paralelización de inferencia (vLLM / llama.cpp).
3. Pasos de Instalación (Versión Preliminar)
El siguiente tutorial está basado en Linux (Ubuntu 22.04), asumiendo que tienes controladores NVIDIA y CUDA 12.x instalados.
Paso 1: Preparar Entorno Python
conda create -n deepseek python=3.10
conda activate deepseek
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install vllm>=0.4.0 # Recomendado usar vLLM para inferencia de alta velocidadPaso 2: Descargar Pesos del Modelo
Por favor, espera pacientemente la actualización del repositorio de HuggingFace. Asume que el nombre del repo es deepseek-ai/deepseek-v4-instruct.
# Instalar git-lfs
git lfs install
# Descargar modelo (asegurar 500GB+ de espacio en disco)
git clone https://huggingface.co/deepseek-ai/deepseek-v4-instruct-awqPaso 3: Iniciar Servicio de Inferencia
Usa vLLM para iniciar un servicio compatible con la API de OpenAI:
python -m vllm.entrypoints.openai.api_server \
--model ./deepseek-v4-instruct-awq \
--trust-remote-code \
--tensor-parallel-size 8 \ # Coincide con tu cantidad de GPU
--host 0.0.0.0 \
--port 8000Paso 4: Probar la Llamada
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-v4-instruct-awq",
"messages": [{"role": "user", "content": "¡Hola, DeepSeek!"}]
}'4. Opciones de Cuantización: La Clave para Bajar la Barrera
Si no tienes 8x 4090, la cuantización es la única salida.
DeepSeek V4 puede proporcionar oficialmente pesos cuantizados en formato AWQ o GPTQ.
Se recomienda usar llama.cpp ya que es extremadamente amigable con Apple Silicon (Mac).
# Usuarios de Mac con llama.cpp
./main -m deepseek-v4-q4_k_m.gguf -n 128 --n-gpu-layers 995. Preguntas Frecuentes (FAQ)
P: ¿Se bloqueará si la VRAM es insuficiente? R: Sí. OOM (Out Of Memory) es común. Si la VRAM es insuficiente, vLLM ni siquiera arrancará. Calcula tu VRAM total estrictamente.
P: ¿Qué pasa si la velocidad de inferencia es lenta? R: En inferencia multi-GPU, la comunicación entre tarjetas (NVLink/PCIe) es el cuello de botella. Usa placas base con capacidad NVLink si es posible, o ve directamente a equipos de grado servidor.
P: ¿Puedo ejecutarlo en CPU?
R: Teóricamente llama.cpp soporta CPU, pero para un modelo de 671B parámetros, generar un carácter puede tomar minutos - no tiene valor práctico.
Nota: Por favor, consulta el README oficial para parámetros de configuración específicos.
Profundización técnica en DeepSeek V4
Guías técnicas y análisis profundo de DeepSeek V4
Author

Table of Contents
More Posts

OpenAI lanza GPT-5.4: ¡1M de contexto + Agentes nativos para frenar a DeepSeek V4!
OpenAI ha lanzado por sorpresa su modelo insignia GPT-5.4, con 1 millón de contexto nativo y un motor de agentes, buscando establecer una muralla tecnológica ante el lanzamiento de DeepSeek V4.


Toda la red espera el banquete de DeepSeek V4, ¿por qué no se destapa la olla? ¡La verdad es más 'hardcore' de lo que piensas!
¿Por qué DeepSeek V4 faltó a su cita del 2 de marzo? Revelamos las tres grandes apuestas tras el retraso: migración a la infraestructura de cómputo nacional, buque insignia multimodal y ventana de lanzamiento estratégica.


La guerra de los modelos ligeros: GPT-5.3 Instant y Gemini 3.1 Flash-Lite llegan – ¿Cómo mantiene DeepSeek V4 su liderazgo?
Con el lanzamiento simultáneo de GPT-5.3 Instant y Gemini 3.1 Flash-Lite por OpenAI y Google, el mercado de modelos ligeros está en ebullición. Análisis de su impacto en ecosistemas de Agentes como OpenClaw y las ventajas competitivas de DeepSeek V4.

Boletín
Únete a la comunidad
Suscríbete a nuestro boletín para las últimas noticias y actualizaciones