DeepSeek v4
DeepSeek v4Beta
  • 機能
  • ニュース&リーク
  • プレイグラウンド
  • FAQ
  1. ホーム
  2. DeepSeekニュース
  3. DeepSeek V4 ベンチマーク公開
DeepSeek V4 ベンチマーク公開
2026/01/18

DeepSeek V4 ベンチマーク公開

Share:
GPT-5およびClaude 3.5との性能比較。

DeepSeek V4 性能ベンチマーク完全ガイド

この記事では、DeepSeek V4 (Instruct) の主要な権威あるAIベンチマークテストにおけるパフォーマンスを要約しています。すべてのデータは、公式の技術レポートおよび第三者による検証結果(予測値)に基づいています。

1. コア能力の概要

ベンチマーク分野DeepSeek V4 (予測)GPT-5Claude 4.5 Opus
MMLU一般知識92.892.590.8
MMLU-Pro複雑な推論88.587.587.3
HumanEvalコード生成94.593.4-
MATH数学競技85.284.7-
SWE-bench実践的コーディング81.580.080.9

2. プログラミング能力 (Code)

DeepSeek V4 のプログラミング分野におけるパフォーマンスは圧倒的です。

HumanEval (Pass@1)

  • DeepSeek V4: 93.8%
  • GPT-5: 93.4%
  • Claude 4.5 Opus: (公式データなし)
  • GPT-4o: 90.2%

LiveCodeBench (Hard)

SWE-bench Verified

実践的なソフトウェアエンジニアリング能力のゴールドスタンダードです。

  • DeepSeek V4: 81.5%
  • Claude 4.5 Opus: 80.9%
  • GPT-5.2: 80.0%

3. 数学と論理推論 (Math & Reasoning)

MATH (0-shot, CoT)

  • DeepSeek V4: 85.2%
  • GPT-5: 84.7%
  • GPT-4o: 76.6%

DeepSeek V4 が導入した Long CoT(長鎖思考)技術により、複雑な数学の証明問題を扱う際に、人間のように段階的に思考することが可能になり、計算ミスが減少しました。

4. 長文脈能力 (Long Context)

NIAH (Needle In A Haystack)

  • 128K Context: 100% リコール率
  • 200K Context: 99.8% リコール率

5. カンファレンス

数字は嘘をつきません。DeepSeek V4 はコスト面で圧倒的な優位性を持つだけでなく、すべてのハードコア指標(コード、数学、推論)において、現在の世界最強のクローズドソースモデルに完全に追いつき、さらには凌駕しています。

  • vs gpt5
  • vs claude opus
Share:
すべての投稿

著者

avatar for DeepSeek UIO
DeepSeek UIO

目次

DeepSeek V4 性能ベンチマーク完全ガイド1. コア能力の概要2. プログラミング能力 (Code)HumanEval (Pass@1)LiveCodeBench (Hard)SWE-bench Verified3. 数学と論理推論 (Math & Reasoning)MATH (0-shot, CoT)4. 長文脈能力 (Long Context)NIAH (Needle In A Haystack)5. カンファレンス

その他の投稿

OpenAI 旗艦 GPT-5.4 が電撃リリース:1M コンテキスト + ネイティブ Agent で DeepSeek V4 の包囲網を突破!

OpenAI 旗艦 GPT-5.4 が電撃リリース:1M コンテキスト + ネイティブ Agent で DeepSeek V4 の包囲網を突破!

OpenAI は、100万トークンのネイティブコンテキストとエージェントエンジンを搭載した最強の旗艦モデル GPT-5.4 を突如発表。DeepSeek V4 のリリース前に技術的優位性を確立する狙いです。

avatar for DeepSeek UIO
DeepSeek UIO
2026/03/06
DeepSeek V4の公開を全網が待っている。なぜ「蓋」はまだ開かないのか?真相は想像以上にハードコア!

DeepSeek V4の公開を全網が待っている。なぜ「蓋」はまだ開かないのか?真相は想像以上にハードコア!

なぜDeepSeek V4は3月2日の約束を破ったのか?その裏にある3つの大きな賭けを解明:国産計算リソースへの移行、マルチモーダル旗艦、そして戦略的リリースウィンドウ。

avatar for DeepSeek UIO
DeepSeek UIO
2026/03/05
軽量モデルの戦い:GPT-5.3 Instant と Gemini 3.1 Flash-Lite が登場、DeepSeek V4 はどうリードを保つか?
DeepSeek V4News

軽量モデルの戦い:GPT-5.3 Instant と Gemini 3.1 Flash-Lite が登場、DeepSeek V4 はどうリードを保つか?

OpenAI と Google が同日に GPT-5.3 Instant と Gemini 3.1 Flash-Lite を発表し、軽量モデル市場が再び沸騰しています。本記事では、これら 2 つのモデルが OpenClaw などのエージェントエコシステムに与える影響と、この変局における DeepSeek V4 の核心的な競争優位性を深く分析します。

avatar for DeepSeek UIO
DeepSeek UIO
2026/03/04

ニュースレター

コミュニティに参加

最新のニュースと更新情報を入手するには、ニュースレターを購読してください

DeepSeek v4DeepSeek v4

Engramメモリアーキテクチャを備えた次世代コーディングAI。

TwitterX (Twitter)Email
製品
  • 機能
  • Engramメモリ
  • MHC
  • OCR 2 Vision
  • ネイティブ推論
  • Lightning Indexer
リソース
  • ニュース&リーク
  • プレイグラウンド
  • FAQ
会社
  • 企業情報
  • お問い合わせ
  • ウェイトリスト
法務
  • Cookieポリシー
  • プライバシーポリシー
  • 利用規約
© 2026 DeepSeek v4 全著作権所有