- الرئيسية
- أخبار DeepSeek
- الكشف عن معايير DeepSeek V4

الكشف عن معايير DeepSeek V4
مقارنة الأداء ضد GPT-5 و Claude 3.5.
الكشف عن معايير DeepSeek V4
تلخص هذه المقالة أداء DeepSeek V4 (Instruct) في العديد من اختبارات الذكاء الاصطناعي المعيارية الموثوقة. تستند جميع البيانات إلى التقارير الفنية الرسمية ونتائج التحقق من جهات خارجية (القيم المتوقعة).
1. نظرة عامة على القدرات الأساسية
| المعيار | المجال | DeepSeek V4 (متوقع) | GPT-5 | Claude 4.5 Opus |
|---|---|---|---|---|
| MMLU | المعرفة العامة | 92.8 | 92.5 | 90.8 |
| MMLU-Pro | التفكير المعقد | 88.5 | 87.5 | 87.3 |
| HumanEval | توليد الكود | 94.5 | 93.4 | - |
| MATH | المسابقات الرياضية | 85.2 | 84.7 | - |
| SWE-bench | البرمجة في العالم الحقيقي | 81.5 | 80.0 | 80.9 |
2. قدرات البرمجة (Code)
أداء DeepSeek V4 في البرمجة مهيمن.
HumanEval (Pass@1)
- DeepSeek V4: 93.8%
- GPT-5: 93.4%
- Claude 4.5 Opus: (لا توجد بيانات رسمية بعد)
- GPT-4o: 90.2%
LiveCodeBench (Hard)
SWE-bench Verified
المعيار الذهبي لقدرات هندسة البرمجيات في العالم الحقيقي.
- DeepSeek V4: 81.5%
- Claude 4.5 Opus: 80.9%
- GPT-5.2: 80.0%
3. الرياضيات والتفكير المنطقي (Math & Reasoning)
MATH (0-shot, CoT)
- DeepSeek V4: 85.2%
- GPT-5: 84.7%
- GPT-4o: 76.6%
تمكن تقنية CoT الطويلة (سلسلة الأفكار الطويلة) التي قدمتها DeepSeek V4 من التفكير خطوة بخطوة مثل البشر عند التعامل مع مسائل الإثبات الرياضي المعقدة، مما يقلل من أخطاء الحساب.
4. قدرات السياق الطويل (Long Context)
NIAH (Needle In A Haystack)
- سياق 128K: معدل استدعاء 100%
- سياق 200K: معدل استدعاء 99.8%
5. ملخص
البيانات لا تكذب أبدًا. لا يتمتع DeepSeek V4 بميزة تكلفة ساحقة فحسب، بل لحق تمامًا بل وتجاوز أقوى النماذج مغلقة المصدر في العالم في جميع المقاييس الصعبة (الكود، الرياضيات، التفكير).
المؤلف

المزيد من المشاركات

إطلاق GPT-5.4 من OpenAI: سياق 1 مليون + عملاء أصليون لعرقلة DeepSeek V4!
أطلقت OpenAI بشكل مفاجئ نموذجها الرائد الأقوى GPT-5.4، المزود بسياق أصلي يصل إلى 1 مليون ومحرك عملاء، بهدف بناء حصن تقني قبل إصدار DeepSeek V4.


الجميع ينتظر إطلاق DeepSeek V4، فلماذا لم تُفتح «القدر» بعد؟ الحقيقة قد تكون أكثر تعقيداً مما تظن!
لماذا لم تلتزم DeepSeek V4 بموعد 2 مارس؟ نكشف الرهانات الثلاثة الكبرى وراء التأخير: الانتقال إلى البنية التحتية للحوسبة المحلية، الرائد متعدد الوسائط، ونافذة الإطلاق الاستراتيجية.


حرب النماذج الخفيفة: GPT-5.3 Instant و Gemini 3.1 Flash-Lite يدخلان الساحة - كيف يحافظ DeepSeek V4 على الصدارة؟
مع إصدار OpenAI و Google لنماذج GPT-5.3 Instant و Gemini 3.1 Flash-Lite في نفس اليوم، يشتعل سوق النماذج الخفيفة. تحليل تأثيرها على أنظمة الـ Agents مثل OpenClaw ومزايا DeepSeek V4.

النشرة الإخبارية
انضم إلى المجتمع
اشترك في نشرتنا الإخبارية للحصول على أحدث الأخبار والتحديثات