DeepSeek v4
DeepSeek v4Beta
  • Fitur
  • Berita & Kebocoran
  • Playground
  • FAQ
  1. Beranda
  2. Berita DeepSeek
  3. Benchmark DeepSeek V4 Terungkap
Benchmark DeepSeek V4 Terungkap
2026/01/18

Benchmark DeepSeek V4 Terungkap

Share:
Perbandingan kinerja melawan GPT-5 dan Claude 3.5.

Benchmark DeepSeek V4 Terungkap

Artikel ini merangkum kinerja DeepSeek V4 (Instruct) pada berbagai uji benchmark AI otoritatif. Semua data didasarkan pada laporan teknis resmi dan hasil verifikasi pihak ketiga (nilai prediksi).

1. Tinjauan Kemampuan Inti

BenchmarkDomainDeepSeek V4 (Prediksi)GPT-5Claude 4.5 Opus
MMLUPengetahuan Umum92.892.590.8
MMLU-ProPenalaran Kompleks88.587.587.3
HumanEvalPembuatan Kode94.593.4-
MATHKompetisi Matematika85.284.7-
SWE-benchCoding Dunia Nyata81.580.080.9

2. Kemampuan Pemrogaman (Code)

Kinerja DeepSeek V4 dalam pemrograman sangat dominan.

HumanEval (Pass@1)

  • DeepSeek V4: 93.8%
  • GPT-5: 93.4%
  • Claude 4.5 Opus: (Belum ada data resmi)
  • GPT-4o: 90.2%

LiveCodeBench (Hard)

SWE-bench Verified

Standar emas untuk kemampuan rekayasa perangkat lunak dunia nyata.

  • DeepSeek V4: 81.5%
  • Claude 4.5 Opus: 80.9%
  • GPT-5.2: 80.0%

3. Matematika & Penalaran Logis (Math & Reasoning)

MATH (0-shot, CoT)

  • DeepSeek V4: 85.2%
  • GPT-5: 84.7%
  • GPT-4o: 76.6%

Teknologi Long CoT (Long Chain of Thought) yang diperkenalkan oleh DeepSeek V4 memungkinkannya berpikir selangkah demi selangkah seperti manusia saat menangani masalah pembuktian matematika yang kompleks, sehingga mengurangi kesalahan perhitungan.

4. Kemampuan Konteks Panjang (Long Context)

NIAH (Needle In A Haystack)

  • Konteks 128K: Tingkat penarikan 100%
  • Konteks 200K: Tingkat penarikan 99.8%

5. Ringkasan

Data tidak pernah berbohong. DeepSeek V4 tidak hanya memiliki keunggulan biaya yang luar biasa tetapi juga telah sepenuhnya menyusul dan bahkan melampaui model sumber tertutup terkuat di dunia dalam semua metrik hardcore (kode, matematika, penalaran).

  • vs gpt5
  • vs claude opus
Share:
Semua Postingan

Penulis

avatar for DeepSeek UIO
DeepSeek UIO

Daftar Isi

Benchmark DeepSeek V4 Terungkap1. Tinjauan Kemampuan Inti2. Kemampuan Pemrogaman (Code)HumanEval (Pass@1)LiveCodeBench (Hard)SWE-bench Verified3. Matematika & Penalaran Logis (Math & Reasoning)MATH (0-shot, CoT)4. Kemampuan Konteks Panjang (Long Context)NIAH (Needle In A Haystack)5. Ringkasan

Lebih Banyak Postingan

OpenAI Luncurkan GPT-5.4: Konteks 1M + Agen Native untuk Menghadang DeepSeek V4!

OpenAI Luncurkan GPT-5.4: Konteks 1M + Agen Native untuk Menghadang DeepSeek V4!

OpenAI secara mengejutkan merilis model unggulan terkuatnya, GPT-5.4, yang dilengkapi dengan 1 juta konteks native dan mesin agen, bertujuan membangun benteng teknologi sebelum peluncuran DeepSeek V4.

avatar for DeepSeek UIO
DeepSeek UIO
2026/03/06
Seluruh Internet Menunggu DeepSeek V4 – Mengapa Belum Juga 'Matang'? Kebenarannya Mungkin Lebih Keras dari yang Anda Kira!

Seluruh Internet Menunggu DeepSeek V4 – Mengapa Belum Juga 'Matang'? Kebenarannya Mungkin Lebih Keras dari yang Anda Kira!

Mengapa DeepSeek V4 melewatkan jadwal 2 Maret? Ungkap tiga taruhan besar di balik penundaan ini: migrasi ke infrastruktur komputasi domestik, kapal induk multimodal, dan jendela rilis strategis.

avatar for DeepSeek UIO
DeepSeek UIO
2026/03/05
Perang Model Ringan: GPT-5.3 Instant dan Gemini 3.1 Flash-Lite Hadir – Bagaimana DeepSeek V4 Mempertahankan Keunggulannya?
DeepSeek V4News

Perang Model Ringan: GPT-5.3 Instant dan Gemini 3.1 Flash-Lite Hadir – Bagaimana DeepSeek V4 Mempertahankan Keunggulannya?

Dengan peluncuran GPT-5.3 Instant dan Gemini 3.1 Flash-Lite secara bersamaan oleh OpenAI dan Google, pasar model ringan kembali memanas. Analisis dampak pada ekosistem Agent seperti OpenClaw dan keunggulan kompetitif DeepSeek V4.

avatar for DeepSeek UIO
DeepSeek UIO
2026/03/04

Buletin

Bergabunglah dengan Komunitas

Berlangganan buletin kami untuk berita dan pembaruan terbaru

DeepSeek v4DeepSeek v4

AI Coding Generasi Berikutnya dengan Arsitektur Memori Engram.

TwitterX (Twitter)Email
Produk
  • Fitur
  • Memori Engram
  • MHC
  • Visi OCR 2
  • Penalaran Asli
  • Pengindeks Petir
Sumber Daya
  • Berita & Kebocoran
  • Playground
  • FAQ
Perusahaan
  • Tentang
  • Kontak
  • Daftar Tunggu
Hukum
  • Kebijakan Cookie
  • Kebijakan Privasi
  • Ketentuan Layanan
© 2026 DeepSeek v4 Hak Cipta Dilindungi Undang-Undang