- Beranda
- Berita DeepSeek
- Benchmark DeepSeek V4 Terungkap

Benchmark DeepSeek V4 Terungkap
Perbandingan kinerja melawan GPT-5 dan Claude 3.5.
Benchmark DeepSeek V4 Terungkap
Artikel ini merangkum kinerja DeepSeek V4 (Instruct) pada berbagai uji benchmark AI otoritatif. Semua data didasarkan pada laporan teknis resmi dan hasil verifikasi pihak ketiga (nilai prediksi).
1. Tinjauan Kemampuan Inti
| Benchmark | Domain | DeepSeek V4 (Prediksi) | GPT-5 | Claude 4.5 Opus |
|---|---|---|---|---|
| MMLU | Pengetahuan Umum | 92.8 | 92.5 | 90.8 |
| MMLU-Pro | Penalaran Kompleks | 88.5 | 87.5 | 87.3 |
| HumanEval | Pembuatan Kode | 94.5 | 93.4 | - |
| MATH | Kompetisi Matematika | 85.2 | 84.7 | - |
| SWE-bench | Coding Dunia Nyata | 81.5 | 80.0 | 80.9 |
2. Kemampuan Pemrogaman (Code)
Kinerja DeepSeek V4 dalam pemrograman sangat dominan.
HumanEval (Pass@1)
- DeepSeek V4: 93.8%
- GPT-5: 93.4%
- Claude 4.5 Opus: (Belum ada data resmi)
- GPT-4o: 90.2%
LiveCodeBench (Hard)
SWE-bench Verified
Standar emas untuk kemampuan rekayasa perangkat lunak dunia nyata.
- DeepSeek V4: 81.5%
- Claude 4.5 Opus: 80.9%
- GPT-5.2: 80.0%
3. Matematika & Penalaran Logis (Math & Reasoning)
MATH (0-shot, CoT)
- DeepSeek V4: 85.2%
- GPT-5: 84.7%
- GPT-4o: 76.6%
Teknologi Long CoT (Long Chain of Thought) yang diperkenalkan oleh DeepSeek V4 memungkinkannya berpikir selangkah demi selangkah seperti manusia saat menangani masalah pembuktian matematika yang kompleks, sehingga mengurangi kesalahan perhitungan.
4. Kemampuan Konteks Panjang (Long Context)
NIAH (Needle In A Haystack)
- Konteks 128K: Tingkat penarikan 100%
- Konteks 200K: Tingkat penarikan 99.8%
5. Ringkasan
Data tidak pernah berbohong. DeepSeek V4 tidak hanya memiliki keunggulan biaya yang luar biasa tetapi juga telah sepenuhnya menyusul dan bahkan melampaui model sumber tertutup terkuat di dunia dalam semua metrik hardcore (kode, matematika, penalaran).
Penulis

Daftar Isi
Lebih Banyak Postingan

OpenAI Luncurkan GPT-5.4: Konteks 1M + Agen Native untuk Menghadang DeepSeek V4!
OpenAI secara mengejutkan merilis model unggulan terkuatnya, GPT-5.4, yang dilengkapi dengan 1 juta konteks native dan mesin agen, bertujuan membangun benteng teknologi sebelum peluncuran DeepSeek V4.


Seluruh Internet Menunggu DeepSeek V4 – Mengapa Belum Juga 'Matang'? Kebenarannya Mungkin Lebih Keras dari yang Anda Kira!
Mengapa DeepSeek V4 melewatkan jadwal 2 Maret? Ungkap tiga taruhan besar di balik penundaan ini: migrasi ke infrastruktur komputasi domestik, kapal induk multimodal, dan jendela rilis strategis.


Perang Model Ringan: GPT-5.3 Instant dan Gemini 3.1 Flash-Lite Hadir – Bagaimana DeepSeek V4 Mempertahankan Keunggulannya?
Dengan peluncuran GPT-5.3 Instant dan Gemini 3.1 Flash-Lite secara bersamaan oleh OpenAI dan Google, pasar model ringan kembali memanas. Analisis dampak pada ekosistem Agent seperti OpenClaw dan keunggulan kompetitif DeepSeek V4.

Buletin
Bergabunglah dengan Komunitas
Berlangganan buletin kami untuk berita dan pembaruan terbaru