- Início
- Notícias DeepSeek
- Benchmarks do DeepSeek V4 Revelados

Benchmarks do DeepSeek V4 Revelados
Comparação de desempenho contra GPT-5 e Claude 3.5.
Benchmarks do DeepSeek V4 Revelados
Este artigo resume o desempenho do DeepSeek V4 (Instruct) em vários testes de benchmark de IA autorizados. Todos os dados são baseados em relatórios técnicos oficiais e resultados de verificação de terceiros (valores previstos).
1. Visão Geral das Principais Capacidades
| Benchmark | Domínio | DeepSeek V4 (Previsto) | GPT-5 | Claude 4.5 Opus |
|---|---|---|---|---|
| MMLU | Conhecimento Geral | 92.8 | 92.5 | 90.8 |
| MMLU-Pro | Raciocínio Complexo | 88.5 | 87.5 | 87.3 |
| HumanEval | Geração de Código | 94.5 | 93.4 | - |
| MATH | Competição de Matemática | 85.2 | 84.7 | - |
| SWE-bench | Programação no Mundo Real | 81.5 | 80.0 | 80.9 |
2. Capacidades de Programação (Code)
O desempenho do DeepSeek V4 em programação é dominante.
HumanEval (Pass@1)
- DeepSeek V4: 93.8%
- GPT-5: 93.4%
- Claude 4.5 Opus: (Sem dados oficiais ainda)
- GPT-4o: 90.2%
LiveCodeBench (Hard)
SWE-bench Verified
O padrão ouro para capacidades de engenharia de software no mundo real.
- DeepSeek V4: 81.5%
- Claude 4.5 Opus: 80.9%
- GPT-5.2: 80.0%
3. Matemática e Raciocínio Lógico (Math & Reasoning)
MATH (0-shot, CoT)
- DeepSeek V4: 85.2%
- GPT-5: 84.7%
- GPT-4o: 76.6%
A tecnologia Long CoT (Long Chain of Thought) introduzida pelo DeepSeek V4 permite que ele pense passo a passo como humanos ao lidar com problemas complexos de prova matemática, reduzindo assim erros de cálculo.
4. Capacidades de Longo Contexto (Long Context)
NIAH (Needle In A Haystack)
- Contexto de 128K: 100% de taxa de recuperação
- Contexto de 200K: 99.8% de taxa de recuperação
5. Resumo
Os dados nunca mentem. O DeepSeek V4 não apenas tem uma vantagem de custo esmagadora, mas também alcançou totalmente e até superou os modelos de código fechado mais fortes do mundo em todas as métricas hardcore (código, matemática, raciocínio).
Autor

Índice
Mais posts

OpenAI lança GPT-5.4: 1M de contexto + Agentes nativos para barrar o DeepSeek V4!
A OpenAI lançou de surpresa o seu modelo topo de gama GPT-5.4, com 1 milhão de contexto nativo e um motor de agentes, visando construir uma barreira tecnológica antes do lançamento do DeepSeek V4.


Toda a rede espera o banquete do DeepSeek V4, por que a panela ainda não abriu? A verdade é mais 'hardcore' do que você pensa!
Por que o DeepSeek V4 faltou ao encontro de 2 de março? Revelamos as três grandes apostas por trás do atraso: migração para a infraestrutura de computação nacional, carro-chefe multimodal e janela estratégica de lançamento.


A guerra dos modelos leves: GPT-5.3 Instant e Gemini 3.1 Flash-Lite chegam – Como o DeepSeek V4 mantém a liderança?
Com o lançamento simultâneo do GPT-5.3 Instant e Gemini 3.1 Flash-Lite pela OpenAI e Google, o mercado de modelos leves está em ebulição. Análise do impacto nos ecossistemas de Agentes como o OpenClaw e as vantagens competitivas do DeepSeek V4.

Newsletter
Junte-se à Comunidade
Assine nossa newsletter para as últimas notícias e atualizações