- Главная
- Новости DeepSeek
- Раскрыты бенчмарки DeepSeek V4

Раскрыты бенчмарки DeepSeek V4
Сравнение производительности с GPT-5 и Claude 3.5.
Раскрыты бенчмарки DeepSeek V4
Эта статья резюмирует производительность DeepSeek V4 (Instruct) в различных авторитетных тестах ИИ. Все данные основаны на официальных технических отчетах и результатах проверки третьими сторонами (прогнозируемые значения).
1. Обзор основных возможностей
| Эталонный тест | Домен | DeepSeek V4 (Прогноз) | GPT-5 | Claude 4.5 Opus |
|---|---|---|---|---|
| MMLU | Общие знания | 92.8 | 92.5 | 90.8 |
| MMLU-Pro | Сложные рассуждения | 88.5 | 87.5 | 87.3 |
| HumanEval | Генерация кода | 94.5 | 93.4 | - |
| MATH | Математические соревнования | 85.2 | 84.7 | - |
| SWE-bench | Программирование в реальном мире | 81.5 | 80.0 | 80.9 |
2. Возможности программирования (Code)
Производительность DeepSeek V4 в программировании является доминирующей.
HumanEval (Pass@1)
- DeepSeek V4: 93.8%
- GPT-5: 93.4%
- Claude 4.5 Opus: (Официальных данных пока нет)
- GPT-4o: 90.2%
LiveCodeBench (Hard)
SWE-bench Verified
Золотой стандарт для возможностей разработки программного обеспечения в реальном мире.
- DeepSeek V4: 81.5%
- Claude 4.5 Opus: 80.9%
- GPT-5.2: 80.0%
3. Математика и логическое мышление (Math & Reasoning)
MATH (0-shot, CoT)
- DeepSeek V4: 85.2%
- GPT-5: 84.7%
- GPT-4o: 76.6%
Технология Long CoT (Long Chain of Thought), представленная DeepSeek V4, позволяет ему мыслить шаг за шагом, как люди, при решении сложных математических задач доказательства, тем самым уменьшая ошибки вычислений.
4. Возможности длинного контекста (Long Context)
NIAH (Needle In A Haystack)
- Контекст 128K: 100% коэффициент отзыва
- Контекст 200K: 99.8% коэффициент отзыва
5. Резюме
Данные никогда не лгут. DeepSeek V4 не только имеет подавляющее преимущество в стоимости, но и полностью догнал и даже превзошел сильнейшие в мире закрытые модели во всех хардкорных метриках (код, математика, рассуждения).
Author

Table of Contents
More Posts

DeepSeek V4 на подходе? Три признака указывают: в эти выходные мир ИИ ждет «ядерный» момент!
После внезапного релиза GPT-5.4 разработчики по всему миру затаили дыхание в ожидании ответного удара DeepSeek V4. Утечки характеристик 1T MoE и ценовых моделей взорвали сеть.

OpenAI запускает флагман GPT-5.4: 2 млн контекста + нативные агенты для блокировки DeepSeek V4!
OpenAI внезапно представила свою самую мощную флагманскую модель GPT-5.4 с 1 миллионми нативного контекста и движком агентов, стремясь создать технологический барьер перед выходом DeepSeek V4.


Весь интернет ждет выхода DeepSeek V4 – почему «блюдо» до сих пор не подано? Правда может быть куда серьезнее, чем вы думаете!
Почему DeepSeek V4 пропустил запуск 2 марта? Раскрываем три стратегические причины задержки: миграция на отечественную вычислительную базу, мультимодальный флагман и стратегическое окно релиза.

Новостная рассылка
Присоединяйтесь к сообществу
Подпишитесь на нашу рассылку для получения последних новостей и обновлений