- Inicio
- Noticias de DeepSeek
- Revelados los benchmarks de DeepSeek V4

Revelados los benchmarks de DeepSeek V4
Comparación de rendimiento contra GPT-5 y Claude 3.5.
Revelados los benchmarks de DeepSeek V4
Este artículo resume el rendimiento de DeepSeek V4 (Instruct) en varias pruebas de referencia de IA autorizadas. Todos los datos se basan en informes técnicos oficiales y resultados de verificación de terceros (valores predichos).
1. Descripción general de capacidades básicas
| Benchmark | Dominio | DeepSeek V4 (Predicho) | GPT-5 | Claude 4.5 Opus |
|---|---|---|---|---|
| MMLU | Conocimiento general | 92.8 | 92.5 | 90.8 |
| MMLU-Pro | Razonamiento complejo | 88.5 | 87.5 | 87.3 |
| HumanEval | Generación de código | 94.5 | 93.4 | - |
| MATH | Competencia matemática | 85.2 | 84.7 | - |
| SWE-bench | Programación en el mundo real | 81.5 | 80.0 | 80.9 |
2. Capacidades de programación (Code)
El rendimiento de DeepSeek V4 en programación es dominante.
HumanEval (Pass@1)
- DeepSeek V4: 93.8%
- GPT-5: 93.4%
- Claude 4.5 Opus: (Sin datos oficiales aún)
- GPT-4o: 90.2%
LiveCodeBench (Hard)
SWE-bench Verified
El estándar de oro para las capacidades de ingeniería de software en el mundo real.
- DeepSeek V4: 81.5%
- Claude 4.5 Opus: 80.9%
- GPT-5.2: 80.0%
3. Matemáticas y razonamiento lógico (Math & Reasoning)
MATH (0-shot, CoT)
- DeepSeek V4: 85.2%
- GPT-5: 84.7%
- GPT-4o: 76.6%
La tecnología Long CoT (Cadena de Pensamiento Larga) introducida por DeepSeek V4 le permite pensar paso a paso como los humanos al manejar problemas complejos de demostración matemática, reduciendo así los errores de cálculo.
4. Capacidades de contexto largo (Long Context)
NIAH (Needle In A Haystack)
- Contexto de 128K: 100% tasa de recuperación
- Contexto de 200K: 99.8% tasa de recuperación
5. Resumen
Los datos nunca mienten. DeepSeek V4 no solo tiene una ventaja de costos abrumadora, sino que también ha alcanzado e incluso superado a los modelos de código cerrado más fuertes del mundo en todas las métricas, incluidas las más difíciles (código, matemáticas, razonamiento).
Comparación de DeepSeek V4
Comparación de DeepSeek V4 con otros modelos de IA líderes
Author

Table of Contents
More Posts

¿DeepSeek V4 a la vuelta de la esquina? Tres señales indican: ¡este fin de semana el mundo de la IA podría vivir un momento 'nuclear'!
Tras el ataque sorpresa de GPT-5.4, los desarrolladores globales contienen el aliento ante el contraataque de DeepSeek V4. Las últimas especificaciones de 1T MoE y los modelos de precios filtrados han encendido las redes.

OpenAI lanza GPT-5.4: ¡1M de contexto + Agentes nativos para frenar a DeepSeek V4!
OpenAI ha lanzado por sorpresa su modelo insignia GPT-5.4, con 1 millón de contexto nativo y un motor de agentes, buscando establecer una muralla tecnológica ante el lanzamiento de DeepSeek V4.


Toda la red espera el banquete de DeepSeek V4, ¿por qué no se destapa la olla? ¡La verdad es más 'hardcore' de lo que piensas!
¿Por qué DeepSeek V4 faltó a su cita del 2 de marzo? Revelamos las tres grandes apuestas tras el retraso: migración a la infraestructura de cómputo nacional, buque insignia multimodal y ventana de lanzamiento estratégica.

Boletín
Únete a la comunidad
Suscríbete a nuestro boletín para las últimas noticias y actualizaciones