مراجعة Grok 4.20: نموذج xAI متعدد الوكلاء (2026)

TL;DR

Grok 4.20	GPT-5.4	Claude Opus 4.6
البرمجة (SWE-bench Verified)	~72%	57.7% (Pro)	80.8%
العلوم (GPQA Diamond)	83–88%	92.8%	91.3%
الاستنتاج (ARC-AGI-2)	15.9%	—	68.8%
الصدق (Omniscience)	78%	—	—
استخدام الكمبيوتر (OSWorld)	—	75%	72.5%
نافذة السياق	2M	400K	1M
سعر الإدخال	$2/M	$2.50/M	$15/M
سعر الإخراج	$6/M	$15/M	$75/M
المعمارية	4-agent MoE (~3T)	Dense (غير معلن)	Dense (غير معلن)

قرار سريع:

أرخص نموذج رائد مع سياق ضخم ← Grok 4.20
أفضل برمجة + أمان الوكلاء ← Claude Opus 4.6
أفضل استخدام للكمبيوتر + الأتمتة ← GPT-5.4
أقل معدل هلوسة ← Grok 4.20

ما هو Grok 4.20؟

يعتبر Grok 4.20 النموذج الرائد لشركة xAI، والذي تم إطلاقه في نسخة تجريبية عامة في 17 فبراير 2026 ووصل إلى التوفر العام في مارس 2026. تم بناؤه على أساس معمارية خليط الخبراء (MoE) بحوالي 3 تريليون معامل — وهو نفس نطاق Grok 3 و Grok 4.1 — ولكن مع معمارية جديدة كلياً متعددة الوكلاء مبنية فوقه.

الميزة الرئيسية: يتم توجيه كل استعلام معقد بشكل كافٍ من خلال أربعة وكلاء ذكاء اصطناعي متخصصين يتناقشون، ويتحققون من الحقائق، ويراجعون بعضهم البعض قبل تقديم الإجابة النهائية. هذا ليس إطار عمل تقوم بتنسيقه بنفسك؛ بل يتم تشغيله بشكل أصلي داخل النموذج في كل طلب مؤهل.

والنتيجة هي تقليل بنسبة 65% في الهلوسة مقارنة بـ Grok 4.1، حيث انخفضت من حوالي 12% إلى 4.2%.

كيف تعمل معمارية الوكلاء الأربعة؟

يتكون نظام Grok 4.20 متعدد الوكلاء من أربعة وكلاء يعملون على أساس MoE المشترك:

الوكيل	الدور	التخصص
Grok (القائد)	المنسق	تفكيك المهام، حل النزاعات، التركيب النهائي
Harper	البحث	البحث في الويب في الوقت الفعلي، استرداد بيانات X Firehose، تثبيت الحقائق
Benjamin	المنطق	الاستنتاج الرياضي، التحقق من الكود، الاتساق المنطقي
Lucas	الإبداع	التفكير المتشعب، كشف الانحياز، تحديد وجهات النظر المفقودة

التدفق الداخلي

التفكيك. يقوم Grok/القائد بتحليل الأمر، وتقسيمه إلى مهام فرعية، وتوجيهها في وقت واحد إلى جميع المتخصصين الثلاثة.
التحليل المتوازي. يتلقى الوكلاء الأربعة السياق الكامل بالإضافة إلى تخصصهم ويقومون بإنشاء تحليلات أولية بالتوازي — وليس بالتتابع.
النقاش الداخلي. يشارك الوكلاء في جولات مراجعة منظمة. يقوم Harper بمراجعة الادعاءات الواقعية وربطها بالبيانات الحقيقية. يتحقق Benjamin من الاتساق المنطقي والحسابات. يكتشف Lucas الانحيازات والحلول الجامدة للغاية.
التركيب. يقوم Grok/القائد بحل الخلافات، ودمج الأفكار، وتقديم النتيجة النهائية.

هذه الحلقة الداخلية لمراجعة الزملاء هي ما يدفع معدل الهلوسة المنخفض بشكل قياسي. عندما يختلق أحد الوكلاء ادعاءً، يكتشفه الآخرون قبل أن يصل إليك.

اختبارات الأداء: أين يفوز Grok 4.20 وأين يخسر

الصدق: رائد في الصناعة

حقق Grok 4.20 معدل عدم هلوسة بنسبة 78% في اختبار Artificial Analysis Omniscience — وهو الأعلى بين أي نموذج تم اختباره. عندما لا يعرف الإجابة، فإنه يقول "لا أعرف" في 78% من الحالات بدلاً من اختلاق رد.

بالنسبة لتطبيقات الإنتاج حيث تهم الموثوقية أكثر من الذكاء الخام، فإن هذا هو الرقم الأهم في الجدول.

البرمجة: تنافسي ولكن ليس الرائد

في اختبار SWE-bench Verified (هندسة البرمجيات في العالم الحقيقي)، سجل Grok 4.20 ما يقرب من 72-75% اعتماداً على الأدوات المستخدمة. هذا أداء قوي ولكنه متأخر عن Claude Opus 4.6 الذي سجل 80.8% و GPT-5.4 Pro الذي سجل 57.7% في نسخة SWE-bench Pro الأكثر صعوبة.

لمهام البرمجة اليومية، Grok 4.20 متمكن. أما بالنسبة لإعادة هيكلة الملفات المتعددة المعقدة وتصحيح الأخطاء على مستوى النظام، فلا يزال Claude يتصدر.

العلوم والاستنتاج: في منتصف الترتيب

في اختبار GPQA Diamond (العلوم على مستوى الدراسات العليا)، سجل Grok 4.20 ما بين 83-88%. يتصدر GPT-5.4 بنسبة 92.8%، يليه Opus 4.6 بنسبة 91.3%. وفي اختبار ARC-AGI-2 (الاستنتاج التجريدي الجديد)، سجل Grok 4.20 نسبة 15.9% — وهو تحسن عن سابقيه ولكنه بعيد جداً عن Opus 4.6 الذي سجل 68.8%.

مؤشر الذكاء: المقايضة

يصنف Artificial Analysis نموذج Grok 4.20 في المرتبة الثامنة في مؤشر الذكاء الخاص بهم بدرجة 48، متأخراً عن Gemini 3.1 Pro و GPT-5.4 اللذين سجلا 57. يبدو أن xAI قد قامت بالتحسين من أجل الموثوقية على حساب الهيمنة المطلقة في اختبارات الأداء. تعتمد قيمة هذه المقايضة كلياً على حالة الاستخدام الخاصة بك.

التسعير: النموذج الرائد الاقتصادي؟

أسعار API القياسية لـ Grok 4.20:

الإدخال	الإخراج
Grok 4.20	$2.00/M tokens	$6.00/M tokens
Grok 4.20 Multi-Agent	$2.00/M tokens	$6.00/M tokens
GPT-5.4	$2.50/M tokens	$15.00/M tokens
Claude Opus 4.6	$15.00/M tokens	$75.00/M tokens
Claude Sonnet 4.6	$3.00/M tokens	$15.00/M tokens

بسعر 2 دولار / 6 دولار لكل مليون توكن، يعد Grok 4.20 أرخص نموذج رائد متاح. فهو أقل تكلفة بـ 7.5 مرات من Opus 4.6 في الإدخال و 12.5 مرة في الإخراج. وحتى مقارنة بـ GPT-5.4، فهو أرخص بنسبة 20% في الإدخال و 60% في الإخراج.

تتوفر النسخة متعددة الوكلاء بنفس السعر، مما يعني أن نظام نقاش الوكلاء الأربعة لا يكلف شيئاً إضافياً.

معرفات نماذج API

grok-4.20                    # القياسي (التفكير مفعل افتراضياً)
grok-4.20-non-reasoning      # أسرع، بدون سلسلة أفكار (chain-of-thought)
grok-4.20-multi-agent        # تنسيق صريح لـ 4 وكلاء

رابط API الأساسي: https://api.x.ai/v1

التحكم في ميزانية التفكير

يدعم Grok 4.20 بارامتر thinking_budget الذي يتيح لك التحكم في عمق التفكير لكل طلب. أنت تدفع فقط مقابل توكنات التفكير التي تستخدمها:

python

import openai

client = openai.OpenAI(
    base_url="https://api.x.ai/v1",
    api_key="YOUR_XAI_API_KEY"
)

response = client.chat.completions.create(
    model="grok-4.20",
    messages=[{"role": "user", "content": "Explain the multi-agent architecture of Grok 4.20"}],
    extra_body={"thinking_budget": 4096}
)

نافذة سياق 2 مليون توكن: التأثير الحقيقي

يأتي Grok 4.20 مع نافذة سياق تبلغ 2 مليون توكن — وهي الأكبر بين النماذج الرائدة الحالية. للمقارنة:

النموذج	نافذة السياق
Grok 4.20	2,000,000
Gemini 3.1 Pro	1,000,000
Claude Opus 4.6	1,000,000
GPT-5.4	400,000

هذا الأمر مهم لحالات الاستخدام التي تتضمن قواعد كود كبيرة، أو مستندات قانونية طويلة، أو تحليل ملفات متعددة، أو جلسات بحث ممتدة. يمكنك وضع ما يقرب من 50,000 سطر من الكود في نافذة سياق واحدة.

من يجب أن يستخدم Grok 4.20؟

الأفضل لـ

أعباء عمل API عالية الحجم بميزانية محدودة. بسعر 2 دولار/6 دولار، يعد تشغيل آلاف الطلبات يومياً أرخص بكثير من البدائل.
التطبيقات التي تتطلب هلوسة منخفضة. روبوتات الدردشة الموجهة للعملاء، المعلومات الطبية، البحث القانوني — أي مكان تكون فيه الإجابة الخاطئة الواثقة أسوأ من قول "لا أعرف".
تحليل البيانات في الوقت الفعلي. وصول Harper المباشر إلى X وبيانات الويب يجعل Grok 4.20 قوياً في تحليل مشاعر السوق ومراقبة الأخبار وتحليل الاتجاهات.
مهام السياق الطويل. تتعامل نافذة السياق سعة 2 مليون مع قواعد كود كاملة أو مجموعات مستندات في تمريرة واحدة.

ليس مثالياً لـ

البرمجة المتطورة. لا يزال Claude Opus 4.6 يتصدر في SWE-bench بفارق ملموس.
الاستنتاج التجريدي المعقد. الفجوة في ARC-AGI-2 (15.9% مقابل 68.8%) كبيرة بالنسبة للمهام التي تتطلب حلاً مبتكراً للمشكلات.
استخدام الكمبيوتر وأتمتة واجهة المستخدم. يتصدر GPT-5.4 بنسبة 75% في OSWorld، متفوقاً حتى على الخبراء البشريين.
أقصى قدر من الذكاء الخام. إذا كنت بحاجة إلى أعلى الدرجات في اختبارات العلوم والاستنتاج، فلا يزال GPT-5.4 أو Gemini 3.1 Pro في المقدمة.

الأسئلة الشائعة

كم عدد معاملات Grok 4.20؟

تم بناء Grok 4.20 على معمارية خليط الخبراء (Mixture-of-Experts) مع ما يقرب من 3 تريليون معامل إجمالي. لا تنشط جميع المعاملات في كل تمريرة استدلال — حيث يقوم تصميم MoE بتوجيه كل توكن إلى مجموعة فرعية من الخبراء، مما يحافظ على تكاليف الحوسبة تحت السيطرة رغم العدد الإجمالي الضخم للمعاملات.

هل Grok 4.20 أفضل من GPT-5.4؟

يعتمد ذلك على ما تحتاجه. يتفوق Grok 4.20 في السعر (2 دولار/6 دولار مقابل 2.50 دولار/15 دولار)، ونافذة السياق (2 مليون مقابل 400 ألف)، والصدق (78% معدل عدم هلوسة). بينما يتفوق GPT-5.4 في اختبارات العلوم (GPQA 92.8% مقابل 83-88%)، واستخدام الكمبيوتر (OSWorld 75%)، ودرجات مؤشر الذكاء الخام. بالنسبة لعمليات الإنتاج الواعية بالميزانية والتي تعطي الأولوية للموثوقية، فإن Grok 4.20 خيار قوي.

هل Grok 4.20 أفضل من Claude Opus 4.6؟

يتفوق Claude Opus 4.6 بشكل كبير على Grok 4.20 في البرمجة (80.8% مقابل ~72% في SWE-bench)، والاستنتاج التجريدي (68.8% مقابل 15.9% في ARC-AGI-2)، والعلوم (91.3% مقابل 83-88% في GPQA). ومع ذلك، فإن Grok 4.20 أرخص بكثير (2 دولار/6 دولار مقابل 15 دولار/75 دولار) ولديه ضعف نافذة السياق (2 مليون مقابل 1 مليون). إذا كنت بحاجة إلى أعلى جودة في المهام المعقدة، فإن Opus يفوز. أما إذا كنت بحاجة إلى نموذج رائد متمكن بجزء بسيط من التكلفة، فإن Grok 4.20 جذاب للغاية.

ما هو نظام الوكلاء المتعددين وهل أدفع مبلغاً إضافياً مقابله؟

يقوم نظام الوكلاء المتعددين بتوجيه الاستعلامات عبر أربعة وكلاء متخصصين (Grok، Harper، Benjamin، Lucas) يتناقشون ويتحققون من الصحة قبل الإجابة. هذا النظام مدمج في النموذج بشكل أصلي — ولا تدفع مبلغاً إضافياً مقابله. تشترك النسخة القياسية والنسخة متعددة الوكلاء في نفس التسعير عند 2 دولار/6 دولار لكل مليون توكن.

ما هو معرف نموذج API الخاص بـ Grok 4.20؟

معرف النموذج الأساسي هو grok-4.20. وتشمل المتغيرات grok-4.20-non-reasoning للاستجابات الأسرع بدون سلسلة أفكار، و grok-4.20-multi-agent لتنسيق صريح بين الوكلاء المتعددين. رابط API الأساسي هو https://api.x.ai/v1.

متى تم إصدار Grok 4.20؟

دخل Grok 4.20 المرحلة التجريبية العامة في 17 فبراير 2026، مع تحديث Beta 2 في 3 مارس 2026 (إصدار النموذج 0309). وتبع ذلك التوفر العام في مارس 2026.

الخلاصة

Grok 4.20 ليس أذكى نموذج متاح — فهذا اللقب يعود لـ GPT-5.4 و Claude Opus 4.6 اعتماداً على اختبار الأداء. ما يقدمه هو مزيج فريد: قدرات من الفئة الرائدة، وصدق يتصدر الصناعة، وأكبر نافذة سياق، وأقل سعر بين النماذج عالية المستوى. معمارية الوكلاء الأربعة مبتكرة حقاً وتقدم تحسينات ملموسة في الدقة الواقعية.

بالنسبة للمطورين الذين يبنون تطبيقات إنتاج حيث تهم التكلفة والموثوقية وطول السياق أكثر من دفع سقف اختبارات الاستنتاج إلى أقصى حدوده، فإن Grok 4.20 يستحق اهتماماً جدياً.

في Y Build، نقوم بدمج نماذج رائدة متعددة — بما في ذلك Grok 4.20 و Claude و GPT — بحيث يمكنك توجيه كل مهمة إلى النموذج الأنسب لها. سواء كنت بحاجة إلى صدق Grok 4.20 المناسب للميزانية لميزات واجهة العملاء أو دقة Claude Opus 4.6 في البرمجة لسير عمل التطوير، فإن الأداة المناسبة تعتمد على الوظيفة المطلوبة.