- ホーム
- DeepSeekニュース
- DeepSeek V4 ベンチマーク公開

DeepSeek V4 ベンチマーク公開
GPT-5およびClaude 3.5との性能比較。
DeepSeek V4 性能ベンチマーク完全ガイド
この記事では、DeepSeek V4 (Instruct) の主要な権威あるAIベンチマークテストにおけるパフォーマンスを要約しています。すべてのデータは、公式の技術レポートおよび第三者による検証結果(予測値)に基づいています。
1. コア能力の概要
| ベンチマーク | 分野 | DeepSeek V4 (予測) | GPT-5 | Claude 4.5 Opus |
|---|---|---|---|---|
| MMLU | 一般知識 | 92.8 | 92.5 | 90.8 |
| MMLU-Pro | 複雑な推論 | 88.5 | 87.5 | 87.3 |
| HumanEval | コード生成 | 94.5 | 93.4 | - |
| MATH | 数学競技 | 85.2 | 84.7 | - |
| SWE-bench | 実践的コーディング | 81.5 | 80.0 | 80.9 |
2. プログラミング能力 (Code)
DeepSeek V4 のプログラミング分野におけるパフォーマンスは圧倒的です。
HumanEval (Pass@1)
- DeepSeek V4: 93.8%
- GPT-5: 93.4%
- Claude 4.5 Opus: (公式データなし)
- GPT-4o: 90.2%
LiveCodeBench (Hard)
SWE-bench Verified
実践的なソフトウェアエンジニアリング能力のゴールドスタンダードです。
- DeepSeek V4: 81.5%
- Claude 4.5 Opus: 80.9%
- GPT-5.2: 80.0%
3. 数学と論理推論 (Math & Reasoning)
MATH (0-shot, CoT)
- DeepSeek V4: 85.2%
- GPT-5: 84.7%
- GPT-4o: 76.6%
DeepSeek V4 が導入した Long CoT(長鎖思考)技術により、複雑な数学の証明問題を扱う際に、人間のように段階的に思考することが可能になり、計算ミスが減少しました。
4. 長文脈能力 (Long Context)
NIAH (Needle In A Haystack)
- 128K Context: 100% リコール率
- 200K Context: 99.8% リコール率
5. カンファレンス
数字は嘘をつきません。DeepSeek V4 はコスト面で圧倒的な優位性を持つだけでなく、すべてのハードコア指標(コード、数学、推論)において、現在の世界最強のクローズドソースモデルに完全に追いつき、さらには凌駕しています。
その他の投稿

OpenAI 旗艦 GPT-5.4 が電撃リリース:1M コンテキスト + ネイティブ Agent で DeepSeek V4 の包囲網を突破!
OpenAI は、100万トークンのネイティブコンテキストとエージェントエンジンを搭載した最強の旗艦モデル GPT-5.4 を突如発表。DeepSeek V4 のリリース前に技術的優位性を確立する狙いです。


DeepSeek V4の公開を全網が待っている。なぜ「蓋」はまだ開かないのか?真相は想像以上にハードコア!
なぜDeepSeek V4は3月2日の約束を破ったのか?その裏にある3つの大きな賭けを解明:国産計算リソースへの移行、マルチモーダル旗艦、そして戦略的リリースウィンドウ。


軽量モデルの戦い:GPT-5.3 Instant と Gemini 3.1 Flash-Lite が登場、DeepSeek V4 はどうリードを保つか?
OpenAI と Google が同日に GPT-5.3 Instant と Gemini 3.1 Flash-Lite を発表し、軽量モデル市場が再び沸騰しています。本記事では、これら 2 つのモデルが OpenClaw などのエージェントエコシステムに与える影響と、この変局における DeepSeek V4 の核心的な競争優位性を深く分析します。

ニュースレター
コミュニティに参加
最新のニュースと更新情報を入手するには、ニュースレターを購読してください