مراجعة Grok 4.20: نموذج xAI متعدد الوكلاء (2026)
مراجعة Grok 4.20: معمارية مكونة من 4 وكلاء، سياق 2 مليون، درجة صدق 78%، سعر إدخال 2 دولار/مليون. اختبارات الأداء مقابل GPT-5.4 و Claude Opus 4.6.
TL;DR
| Grok 4.20 | GPT-5.4 | Claude Opus 4.6 | |
|---|---|---|---|
| البرمجة (SWE-bench Verified) | ~72% | 57.7% (Pro) | 80.8% |
| العلوم (GPQA Diamond) | 83–88% | 92.8% | 91.3% |
| الاستنتاج (ARC-AGI-2) | 15.9% | — | 68.8% |
| الصدق (Omniscience) | 78% | — | — |
| استخدام الكمبيوتر (OSWorld) | — | 75% | 72.5% |
| نافذة السياق | 2M | 400K | 1M |
| سعر الإدخال | $2/M | $2.50/M | $15/M |
| سعر الإخراج | $6/M | $15/M | $75/M |
| المعمارية | 4-agent MoE (~3T) | Dense (غير معلن) | Dense (غير معلن) |
- أرخص نموذج رائد مع سياق ضخم ← Grok 4.20
- أفضل برمجة + أمان الوكلاء ← Claude Opus 4.6
- أفضل استخدام للكمبيوتر + الأتمتة ← GPT-5.4
- أقل معدل هلوسة ← Grok 4.20
ما هو Grok 4.20؟
يعتبر Grok 4.20 النموذج الرائد لشركة xAI، والذي تم إطلاقه في نسخة تجريبية عامة في 17 فبراير 2026 ووصل إلى التوفر العام في مارس 2026. تم بناؤه على أساس معمارية خليط الخبراء (MoE) بحوالي 3 تريليون معامل — وهو نفس نطاق Grok 3 و Grok 4.1 — ولكن مع معمارية جديدة كلياً متعددة الوكلاء مبنية فوقه.
الميزة الرئيسية: يتم توجيه كل استعلام معقد بشكل كافٍ من خلال أربعة وكلاء ذكاء اصطناعي متخصصين يتناقشون، ويتحققون من الحقائق، ويراجعون بعضهم البعض قبل تقديم الإجابة النهائية. هذا ليس إطار عمل تقوم بتنسيقه بنفسك؛ بل يتم تشغيله بشكل أصلي داخل النموذج في كل طلب مؤهل.
والنتيجة هي تقليل بنسبة 65% في الهلوسة مقارنة بـ Grok 4.1، حيث انخفضت من حوالي 12% إلى 4.2%.
كيف تعمل معمارية الوكلاء الأربعة؟
يتكون نظام Grok 4.20 متعدد الوكلاء من أربعة وكلاء يعملون على أساس MoE المشترك:
| الوكيل | الدور | التخصص |
|---|---|---|
| Grok (القائد) | المنسق | تفكيك المهام، حل النزاعات، التركيب النهائي |
| Harper | البحث | البحث في الويب في الوقت الفعلي، استرداد بيانات X Firehose، تثبيت الحقائق |
| Benjamin | المنطق | الاستنتاج الرياضي، التحقق من الكود، الاتساق المنطقي |
| Lucas | الإبداع | التفكير المتشعب، كشف الانحياز، تحديد وجهات النظر المفقودة |
التدفق الداخلي
- التفكيك. يقوم Grok/القائد بتحليل الأمر، وتقسيمه إلى مهام فرعية، وتوجيهها في وقت واحد إلى جميع المتخصصين الثلاثة.
- التحليل المتوازي. يتلقى الوكلاء الأربعة السياق الكامل بالإضافة إلى تخصصهم ويقومون بإنشاء تحليلات أولية بالتوازي — وليس بالتتابع.
- النقاش الداخلي. يشارك الوكلاء في جولات مراجعة منظمة. يقوم Harper بمراجعة الادعاءات الواقعية وربطها بالبيانات الحقيقية. يتحقق Benjamin من الاتساق المنطقي والحسابات. يكتشف Lucas الانحيازات والحلول الجامدة للغاية.
- التركيب. يقوم Grok/القائد بحل الخلافات، ودمج الأفكار، وتقديم النتيجة النهائية.
اختبارات الأداء: أين يفوز Grok 4.20 وأين يخسر
الصدق: رائد في الصناعة
حقق Grok 4.20 معدل عدم هلوسة بنسبة 78% في اختبار Artificial Analysis Omniscience — وهو الأعلى بين أي نموذج تم اختباره. عندما لا يعرف الإجابة، فإنه يقول "لا أعرف" في 78% من الحالات بدلاً من اختلاق رد.
بالنسبة لتطبيقات الإنتاج حيث تهم الموثوقية أكثر من الذكاء الخام، فإن هذا هو الرقم الأهم في الجدول.
البرمجة: تنافسي ولكن ليس الرائد
في اختبار SWE-bench Verified (هندسة البرمجيات في العالم الحقيقي)، سجل Grok 4.20 ما يقرب من 72-75% اعتماداً على الأدوات المستخدمة. هذا أداء قوي ولكنه متأخر عن Claude Opus 4.6 الذي سجل 80.8% و GPT-5.4 Pro الذي سجل 57.7% في نسخة SWE-bench Pro الأكثر صعوبة.
لمهام البرمجة اليومية، Grok 4.20 متمكن. أما بالنسبة لإعادة هيكلة الملفات المتعددة المعقدة وتصحيح الأخطاء على مستوى النظام، فلا يزال Claude يتصدر.
العلوم والاستنتاج: في منتصف الترتيب
في اختبار GPQA Diamond (العلوم على مستوى الدراسات العليا)، سجل Grok 4.20 ما بين 83-88%. يتصدر GPT-5.4 بنسبة 92.8%، يليه Opus 4.6 بنسبة 91.3%. وفي اختبار ARC-AGI-2 (الاستنتاج التجريدي الجديد)، سجل Grok 4.20 نسبة 15.9% — وهو تحسن عن سابقيه ولكنه بعيد جداً عن Opus 4.6 الذي سجل 68.8%.
مؤشر الذكاء: المقايضة
يصنف Artificial Analysis نموذج Grok 4.20 في المرتبة الثامنة في مؤشر الذكاء الخاص بهم بدرجة 48، متأخراً عن Gemini 3.1 Pro و GPT-5.4 اللذين سجلا 57. يبدو أن xAI قد قامت بالتحسين من أجل الموثوقية على حساب الهيمنة المطلقة في اختبارات الأداء. تعتمد قيمة هذه المقايضة كلياً على حالة الاستخدام الخاصة بك.
التسعير: النموذج الرائد الاقتصادي؟
أسعار API القياسية لـ Grok 4.20:
| الإدخال | الإخراج | |
|---|---|---|
| Grok 4.20 | $2.00/M tokens | $6.00/M tokens |
| Grok 4.20 Multi-Agent | $2.00/M tokens | $6.00/M tokens |
| GPT-5.4 | $2.50/M tokens | $15.00/M tokens |
| Claude Opus 4.6 | $15.00/M tokens | $75.00/M tokens |
| Claude Sonnet 4.6 | $3.00/M tokens | $15.00/M tokens |
بسعر 2 دولار / 6 دولار لكل مليون توكن، يعد Grok 4.20 أرخص نموذج رائد متاح. فهو أقل تكلفة بـ 7.5 مرات من Opus 4.6 في الإدخال و 12.5 مرة في الإخراج. وحتى مقارنة بـ GPT-5.4، فهو أرخص بنسبة 20% في الإدخال و 60% في الإخراج.
تتوفر النسخة متعددة الوكلاء بنفس السعر، مما يعني أن نظام نقاش الوكلاء الأربعة لا يكلف شيئاً إضافياً.
معرفات نماذج API
grok-4.20 # القياسي (التفكير مفعل افتراضياً)
grok-4.20-non-reasoning # أسرع، بدون سلسلة أفكار (chain-of-thought)
grok-4.20-multi-agent # تنسيق صريح لـ 4 وكلاء
رابط API الأساسي: https://api.x.ai/v1
التحكم في ميزانية التفكير
يدعم Grok 4.20 بارامتر thinking_budget الذي يتيح لك التحكم في عمق التفكير لكل طلب. أنت تدفع فقط مقابل توكنات التفكير التي تستخدمها:
import openai
client = openai.OpenAI(
base_url="https://api.x.ai/v1",
api_key="YOUR_XAI_API_KEY"
)
response = client.chat.completions.create(
model="grok-4.20",
messages=[{"role": "user", "content": "Explain the multi-agent architecture of Grok 4.20"}],
extra_body={"thinking_budget": 4096}
)
نافذة سياق 2 مليون توكن: التأثير الحقيقي
يأتي Grok 4.20 مع نافذة سياق تبلغ 2 مليون توكن — وهي الأكبر بين النماذج الرائدة الحالية. للمقارنة:
| النموذج | نافذة السياق |
|---|---|
| Grok 4.20 | 2,000,000 |
| Gemini 3.1 Pro | 1,000,000 |
| Claude Opus 4.6 | 1,000,000 |
| GPT-5.4 | 400,000 |
هذا الأمر مهم لحالات الاستخدام التي تتضمن قواعد كود كبيرة، أو مستندات قانونية طويلة، أو تحليل ملفات متعددة، أو جلسات بحث ممتدة. يمكنك وضع ما يقرب من 50,000 سطر من الكود في نافذة سياق واحدة.
من يجب أن يستخدم Grok 4.20؟
الأفضل لـ
- أعباء عمل API عالية الحجم بميزانية محدودة. بسعر 2 دولار/6 دولار، يعد تشغيل آلاف الطلبات يومياً أرخص بكثير من البدائل.
- التطبيقات التي تتطلب هلوسة منخفضة. روبوتات الدردشة الموجهة للعملاء، المعلومات الطبية، البحث القانوني — أي مكان تكون فيه الإجابة الخاطئة الواثقة أسوأ من قول "لا أعرف".
- تحليل البيانات في الوقت الفعلي. وصول Harper المباشر إلى X وبيانات الويب يجعل Grok 4.20 قوياً في تحليل مشاعر السوق ومراقبة الأخبار وتحليل الاتجاهات.
- مهام السياق الطويل. تتعامل نافذة السياق سعة 2 مليون مع قواعد كود كاملة أو مجموعات مستندات في تمريرة واحدة.
ليس مثالياً لـ
- البرمجة المتطورة. لا يزال Claude Opus 4.6 يتصدر في SWE-bench بفارق ملموس.
- الاستنتاج التجريدي المعقد. الفجوة في ARC-AGI-2 (15.9% مقابل 68.8%) كبيرة بالنسبة للمهام التي تتطلب حلاً مبتكراً للمشكلات.
- استخدام الكمبيوتر وأتمتة واجهة المستخدم. يتصدر GPT-5.4 بنسبة 75% في OSWorld، متفوقاً حتى على الخبراء البشريين.
- أقصى قدر من الذكاء الخام. إذا كنت بحاجة إلى أعلى الدرجات في اختبارات العلوم والاستنتاج، فلا يزال GPT-5.4 أو Gemini 3.1 Pro في المقدمة.
الأسئلة الشائعة
كم عدد معاملات Grok 4.20؟
تم بناء Grok 4.20 على معمارية خليط الخبراء (Mixture-of-Experts) مع ما يقرب من 3 تريليون معامل إجمالي. لا تنشط جميع المعاملات في كل تمريرة استدلال — حيث يقوم تصميم MoE بتوجيه كل توكن إلى مجموعة فرعية من الخبراء، مما يحافظ على تكاليف الحوسبة تحت السيطرة رغم العدد الإجمالي الضخم للمعاملات.
هل Grok 4.20 أفضل من GPT-5.4؟
يعتمد ذلك على ما تحتاجه. يتفوق Grok 4.20 في السعر (2 دولار/6 دولار مقابل 2.50 دولار/15 دولار)، ونافذة السياق (2 مليون مقابل 400 ألف)، والصدق (78% معدل عدم هلوسة). بينما يتفوق GPT-5.4 في اختبارات العلوم (GPQA 92.8% مقابل 83-88%)، واستخدام الكمبيوتر (OSWorld 75%)، ودرجات مؤشر الذكاء الخام. بالنسبة لعمليات الإنتاج الواعية بالميزانية والتي تعطي الأولوية للموثوقية، فإن Grok 4.20 خيار قوي.
هل Grok 4.20 أفضل من Claude Opus 4.6؟
يتفوق Claude Opus 4.6 بشكل كبير على Grok 4.20 في البرمجة (80.8% مقابل ~72% في SWE-bench)، والاستنتاج التجريدي (68.8% مقابل 15.9% في ARC-AGI-2)، والعلوم (91.3% مقابل 83-88% في GPQA). ومع ذلك، فإن Grok 4.20 أرخص بكثير (2 دولار/6 دولار مقابل 15 دولار/75 دولار) ولديه ضعف نافذة السياق (2 مليون مقابل 1 مليون). إذا كنت بحاجة إلى أعلى جودة في المهام المعقدة، فإن Opus يفوز. أما إذا كنت بحاجة إلى نموذج رائد متمكن بجزء بسيط من التكلفة، فإن Grok 4.20 جذاب للغاية.
ما هو نظام الوكلاء المتعددين وهل أدفع مبلغاً إضافياً مقابله؟
يقوم نظام الوكلاء المتعددين بتوجيه الاستعلامات عبر أربعة وكلاء متخصصين (Grok، Harper، Benjamin، Lucas) يتناقشون ويتحققون من الصحة قبل الإجابة. هذا النظام مدمج في النموذج بشكل أصلي — ولا تدفع مبلغاً إضافياً مقابله. تشترك النسخة القياسية والنسخة متعددة الوكلاء في نفس التسعير عند 2 دولار/6 دولار لكل مليون توكن.
ما هو معرف نموذج API الخاص بـ Grok 4.20؟
معرف النموذج الأساسي هو grok-4.20. وتشمل المتغيرات grok-4.20-non-reasoning للاستجابات الأسرع بدون سلسلة أفكار، و grok-4.20-multi-agent لتنسيق صريح بين الوكلاء المتعددين. رابط API الأساسي هو https://api.x.ai/v1.
متى تم إصدار Grok 4.20؟
دخل Grok 4.20 المرحلة التجريبية العامة في 17 فبراير 2026، مع تحديث Beta 2 في 3 مارس 2026 (إصدار النموذج 0309). وتبع ذلك التوفر العام في مارس 2026.
الخلاصة
Grok 4.20 ليس أذكى نموذج متاح — فهذا اللقب يعود لـ GPT-5.4 و Claude Opus 4.6 اعتماداً على اختبار الأداء. ما يقدمه هو مزيج فريد: قدرات من الفئة الرائدة، وصدق يتصدر الصناعة، وأكبر نافذة سياق، وأقل سعر بين النماذج عالية المستوى. معمارية الوكلاء الأربعة مبتكرة حقاً وتقدم تحسينات ملموسة في الدقة الواقعية.
بالنسبة للمطورين الذين يبنون تطبيقات إنتاج حيث تهم التكلفة والموثوقية وطول السياق أكثر من دفع سقف اختبارات الاستنتاج إلى أقصى حدوده، فإن Grok 4.20 يستحق اهتماماً جدياً.
في Y Build، نقوم بدمج نماذج رائدة متعددة — بما في ذلك Grok 4.20 و Claude و GPT — بحيث يمكنك توجيه كل مهمة إلى النموذج الأنسب لها. سواء كنت بحاجة إلى صدق Grok 4.20 المناسب للميزانية لميزات واجهة العملاء أو دقة Claude Opus 4.6 في البرمجة لسير عمل التطوير، فإن الأداة المناسبة تعتمد على الوظيفة المطلوبة.