دليل GPT-5.4: نموذج الوكيل المستقل من OpenAI (2026)
يحقق GPT-5.4 نسبة 75% في OSWorld، متفوقاً على البشر في استخدام الكمبيوتر. سياق 1 مليون، 2.50 دولار لكل مليون توكن، 5 إصدارات للنموذج. دليل كامل للمقاييس والأسعار والمقارنة.
ملخص سريع (TL;DR)
أصدرت OpenAI نموذج GPT-5.4 في 5 مارس 2026 — وهو أول نموذج عام الأغراض يتفوق على البشر في استخدام الكمبيوتر بشكل مستقل. الإحصائيات الرئيسية:
| الميزة | التفاصيل |
|---|---|
| موثق من OSWorld | 75.0% — يتجاوز الخط الأساسي البشري (72.4%) |
| SWE-bench Pro | 57.7% — برمجة قوية، لكنه يتأخر عن Claude Opus 4.6 (80.8%) |
| نافذة السياق | تصل إلى 1.05 مليون توكن (272 ألف قياسي، 1 مليون ممتد) |
| استخدام الكمبيوتر | أصلي (Native)، متطور — مدمج لأول مرة في نموذج عام |
| كفاءة التوكنات | توكنات أقل بكثير من GPT-5.2 للمهام المكافئة |
| سعر API | 2.50 دولار للمدخلات / 15.00 دولار للمخرجات لكل مليون توكن |
| الإصدارات | Standard، Thinking، Pro، Mini، Nano |
| التفكير التفاعلي | خطة مسبقة + توجيه في منتصف الاستجابة |
ما هو GPT-5.4؟
نموذج GPT-5.4 هو النموذج اللغوي الكبير الرائد من OpenAI، والذي أُصدر في 5 مارس 2026. يجمع النموذج بين أفضل نقاط القوة البرمجية في GPT-5.3 Codex مع قدرات خارقة في استخدام الكمبيوتر بشكل مستقل، ونافذة سياق تصل إلى مليون توكن، ونظام تفكير تفاعلي جديد.
العنوان الرئيسي: GPT-5.4 هو أول نموذج ذكاء اصطناعي عام الأغراض يتجاوز الأداء البشري في مهام كمبيوتر سطح المكتب. فقد سجل 75.0% في مقياس OSWorld-Verified — وهو مقياس يسجل فيه المختبرون البشريون الخبراء 72.4%. لم يتمكن أي نموذج آخر من تجاوز هذا الحد بوضوح من قبل.
يمثل هذا تحسناً بمقدار 28 نقطة عن GPT-5.2 (47.3%) في أقل من أربعة أشهر. يمكن للنموذج تحليل إحداثيات الشاشة من لقطات الشاشة وإصدار أوامر الماوس ولوحة المفاتيح مباشرة، مما يسمح له بالتنقل بين الملفات، المتصفحات، محطات الطرفية (terminals)، وبرامج الإنتاجية بشكل مستقل.
الميزات الرئيسية
استخدام الكمبيوتر الأصلي (Native Computer Use)
على عكس النماذج السابقة التي كانت تحتاج إلى أدوات خارجية للتحكم في الكمبيوتر، يمتلك GPT-5.4 قدرات مدمجة لاستخدام الكمبيوتر. في تطبيق Codex وعبر API، يمكن للنموذج:
- التنقل في بيئات سطح المكتب من خلال لقطات الشاشة وإجراءات لوحة المفاتيح/الماوس.
- العمل عبر تطبيقات متعددة بالتتابع.
- إكمال سير عمل متعدد الخطوات (إدارة الملفات، مهام المتصفح، عمليات terminal).
- التعامل مع برامج الإنتاجية مثل الجداول الحسابية، العروض التقديمية، والمستندات.
نافذة سياق بمليون توكن
يدعم GPT-5.4 ما يصل إلى 1.05 مليون توكن من السياق. النافذة القياسية هي 272 ألف توكن؛ والطلبات التي تتجاوز هذا الحد تتم معالجتها بضعف معدل الإدخال العادي. هذا السياق الهائل بالغ الأهمية لسير عمل الوكلاء (agentic workflows) حيث يحتاج النموذج إلى الاحتفاظ بسجلات طويلة لاستخدام الأدوات، أو قواعد كود كبيرة، أو مجموعات مستندات ممتدة في الذاكرة.
التفكير التفاعلي (Interactive Thinking)
يقدم GPT-5.4 Thinking نموذجاً جديداً: يوفر النموذج خطة مسبقة لاستدلاله، ويمكنك توجيهه في منتصف الاستجابة. أضف تعليمات، أو صحح المسار، أو حسن الاتجاه دون البدء من جديد. هذا تحسين كبير في جودة العمل للمهام المعقدة والمتعددة الخطوات.
تحسين كفاءة التوكنات
ذكرت OpenAI أن GPT-5.4 يستخدم توكنات أقل بكثير لحل المشكلات مقارنة بـ GPT-5.2، إلى جانب تقليل الأخطاء الواقعية بنسبة 33%. بالنسبة لنشر التطبيقات في بيئات الإنتاج، يعني هذا تكاليف أقل لكل مهمة حتى قبل احتساب التسعير التنافسي.
مقاييس الأداء (Benchmarks)
أين يتصدر GPT-5.4
| المقياس | ماذا يختبر | GPT-5.4 | أفضل منافس |
|---|---|---|---|
| OSWorld-Verified | استخدام كمبيوتر سطح المكتب | 75.0% | Claude Opus 4.6: 72.7% |
| Toolathlon | استخدام الأدوات/API متعدد الخطوات | أعلى درجة | — |
| GDPval | العمل المعرفي | 83% | — |
مقارنة النماذج الكاملة
| المقياس | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.7% | N/A |
| SWE-bench Verified | ~80% | 80.8% | 80.6% |
| SWE-bench Pro | 57.7% | ~45% | 54.2% |
| ARC-AGI-2 | 52.9% | 68.8% | 77.1% |
| GDPval | 83% | — | — |
ماذا تعني هذه الأرقام
يعد GPT-5.4 أول نموذج يتعامل بمصداقية مع استخدام الكمبيوتر، البرمجة، والعمل المعرفي بمستوى متطور (frontier) في آن واحد. درجة 75% في OSWorld هي أوضح علامة فارقة — فهي تعني أن النموذج يمكنه إكمال ثلاث من أصل أربع مهام حقيقية على سطح المكتب يجدها حتى البشر الخبراء صعبة.
ومع ذلك، فإن الصورة دقيقة. في SWE-bench Verified (البرمجة الواقعية)، يتفوق كل من Claude Opus 4.6 و Gemini 3.1 Pro بشكل ملحوظ على GPT-5.4 بنسبة 80.8% و 80.6% على التوالي. وفي الاستدلال المجرد (ARC-AGI-2)، يتأخر GPT-5.4 عن Claude Opus 4.6 بفارق 16 نقطة مئوية وعن Gemini 3.1 Pro بأكثر من 24 نقطة.
الخلاصة: يتفوق GPT-5.4 في التحكم الذاتي في الكمبيوتر والاستخدام العملي للأدوات، ولكنه ليس النموذج الأفضل لكل مهمة.
إصدارات النموذج والأسعار
يتوفر GPT-5.4 في خمسة إصدارات، كل منها يستهدف حالات استخدام وميزانيات مختلفة:
| الإصدار | المدخلات (لكل مليون توكن) | المخرجات (لكل مليون توكن) | الأفضل لـ |
|---|---|---|---|
| GPT-5.4 Standard | $2.50 | $15.00 | الأغراض العامة، استخدام الكمبيوتر، سير عمل الوكلاء |
| GPT-5.4 Thinking | $2.50 | $15.00 | الاستدلال المعقد مع توجيه الخطة التفاعلي |
| GPT-5.4 Pro | $30.00 | $180.00 | القانوني، الطبي، المالي — أقصى دقة |
| GPT-5.4 Mini | $0.75 | $4.50 | حجم العمل الكبير، المهام الحساسة لزمن الاستجابة |
| GPT-5.4 Nano | يحدد لاحقاً | يحدد لاحقاً | حالات استخدام الحافة (Edge) والأنظمة المدمجة |
- المطالبات (Prompts) التي تتجاوز 272 ألف توكن تُحاسب بضعف معدل الإدخال القياسي (5.00 دولار لكل مليون توكن للإصدار Standard).
- نقاط النهاية الإقليمية لتوطين البيانات تحمل رسوماً إضافية بنسبة 10% عبر جميع الإصدارات.
- GPT-5.4 Mini متاح لمستخدمي ChatGPT في الفئة المجانية؛ أما Nano فهو مخصص لـ API فقط.
مقارنة التكلفة: GPT-5.4 مقابل Claude Opus 4.6
لعبء عمل يومي نموذجي:
| GPT-5.4 | Claude Opus 4.6 | |
|---|---|---|
| متوسط التكلفة اليومية | ~5.50 دولار | ~10.00 دولار |
| متوسط التكلفة الشهرية | ~165 دولار | ~300 دولار |
| نسبة التكلفة | 1x | ~1.8x |
GPT-5.4 أرخص بنسبة 50% تقريباً من Claude Opus 4.6 لنفس حجم التوكنات. إصدار Mini يعزز هذا الفارق — حيث سجل 54.38% في SWE-bench Pro بتكلفة أقل بنحو 6 مرات.
GPT-5.4 مقابل Claude Opus 4.6: متى تستخدم أياً منهما؟
هذا هو السؤال الذي تطرحه معظم الفرق في أبريل 2026. تعتمد الإجابة على طبيعة عملك.
اختر GPT-5.4 إذا كنت بحاجة إلى:
- أتمتة سطح المكتب واستخدام الكمبيوتر — 75.0% في OSWorld مقابل 72.7% لـ Opus 4.6.
- استدعاء الأدوات وتنسيق API — دقة أفضل في خطوات أقل على Toolathlon.
- كفاءة التكلفة — نصف تكلفة التوكن الواحد تقريباً مقارنة بـ Opus 4.6.
- استدلال موفر للتوكنات — توكنات أقل لكل مشكلة تعني فواتير أقل.
- النماذج الأولية السريعة — تكرار سريع مع تكاليف إضافية أقل.
اختر Claude Opus 4.6 إذا كنت بحاجة إلى:
- إعادة هيكلة كود معقدة لملفات متعددة — يتصدر SWE-bench Verified بنسبة 80.8%.
- تماسك السياق الطويل — أقوى في الحفاظ على الجودة عبر سياقات طويلة جداً.
- الاستدلال المجرد والجديد — متفوق بفارق 16 نقطة في ARC-AGI-2.
- البحث الوكيلي وهندسة الكود العميقة — يتفوق في المهام التي تتطلب فهماً عميقاً.
- جودة الكتابة واللمسة الفنية — يحتل المرتبة الأولى في رضا مستخدمي Chatbot Arena.
ملخص المواجهة المباشرة
| البعد | الفائز | الفارق |
|---|---|---|
| استخدام الكمبيوتر (OSWorld) | GPT-5.4 | 75.0% مقابل 72.7% |
| البرمجة (SWE-bench Verified) | Claude Opus 4.6 | 80.8% مقابل ~80% |
| الاستدلال المجرد (ARC-AGI-2) | Claude Opus 4.6 | 68.8% مقابل 52.9% |
| استدعاء الأدوات (Toolathlon) | GPT-5.4 | خطوات أقل، دقة أفضل |
| العمل المعرفي (GDPval) | GPT-5.4 | 83% |
| التسعير | GPT-5.4 | أرخص بنسبة ~50% |
| رضا المستخدمين | Claude Opus 4.6 | رقم 1 في Chatbot Arena |
كيفية الوصول إلى GPT-5.4
يتوفر GPT-5.4 من خلال:
- ChatGPT — نموذج GPT-5.4 Thinking هو النموذج الافتراضي لمستخدمي Plus و Pro و Team. إصدار Mini متاح لمستخدمي الفئة المجانية.
- OpenAI API — جميع الإصدارات الخمسة متاحة عبر نقاط نهاية الـ completions والدردشة القياسية.
- تطبيق Codex — قدرات كاملة لاستخدام الكمبيوتر مع الوكيل المخصص لسطح المكتب.
- OpenRouter — وصول عبر طرف ثالث بأسعار تنافسية.
computer_use وتقديم لقطات الشاشة كمدخلات صور. يعيد النموذج إجراءات منظمة (نقر، كتابة، تمرير) يقوم تطبيقك بترجمتها إلى أحداث في النظام.
الأسئلة الشائعة
هل GPT-5.4 أفضل من Claude Opus 4.6؟
يعتمد ذلك على المهمة. يتفوق GPT-5.4 في استخدام الكمبيوتر، واستدعاء الأدوات، وكفاءة التكلفة. بينما يتفوق Claude Opus 4.6 في البرمجة المعقدة، والاستدلال المجرد، وجودة الكتابة. بالنسبة لمعظم الفرق، يعتمد الاختيار على ما إذا كان عبء العمل الأساسي هو أتمتة سطح المكتب (GPT-5.4) أو هندسة البرمجيات العميقة (Opus 4.6).
كم تبلغ تكلفة GPT-5.4؟
يكلف النموذج القياسي 2.50 دولار لكل مليون توكن مدخلات و 15.00 دولار لكل مليون توكن مخرجات. إصدار Pro يكلف 30/180 دولار لكل مليون توكن. أما Mini فيكلف 0.75/4.50 دولار لكل مليون توكن. المطالبات التي تتجاوز 272 ألف توكن تُحاسب بضعف سعر المدخلات.
هل يمكن لـ GPT-5.4 حقاً استخدام الكمبيوتر بشكل أفضل من البشر؟
في مقياس OSWorld-Verified، نعم — 75.0% مقابل الخط الأساسي للخبراء البشريين البالغ 72.4%. ومع ذلك، تقيس المقاييس فئات مهام محددة. يتضمن استخدام الكمبيوتر في العالم الحقيقي الحكم، السياق، والقدرة على التكيف التي لا تلتقطها المقاييس بالكامل. من الأفضل اعتباره خارقاً في المهام المنظمة لسطح المكتب، وليس بديلاً كاملاً لاستخدام البشر للكمبيوتر.
ما هي نافذة السياق لـ GPT-5.4؟
تصل إلى 1.05 مليون توكن. الفئة القياسية هي 272 ألف توكن. التوسع لما بعد 272 ألف يضاعف تكلفة توكن المدخلات. يعد سياق 1 مليون كاملاً أمراً بالغ الأهمية لسير عمل الوكلاء التي تراكم سجلات تفاعل طويلة.
هل يجب علي الترقية من GPT-5.3 Codex؟
إذا كان عملك يتضمن استخدام الكمبيوتر أو تنسيق أدوات متعددة، فنعم. القفزة من 64.7% إلى 75.0% في OSWorld جوهرية. بالنسبة لمهام البرمجة البحتة، فإن التحسن مقارنة بـ GPT-5.3 Codex هو تحسن تدريجي — حيث انتقل SWE-bench Pro من 56.8% إلى 57.7%. قم بالتقييم بناءً على حالة استخدامك الخاصة.
ما هي إصدارات النموذج المتاحة؟
خمسة: Standard، Thinking، Pro، Mini، و Nano. يتشارك Standard و Thinking نفس السعر وهما النموذجان الرئيسيان لمعظم حالات الاستخدام. Pro هو الفئة المميزة لأقصى قدر من الدقة. Mini يستهدف بيئات الإنتاج الحساسة للتكلفة. وصُمم Nano لتطبيقات الحافة والأنظمة المدمجة.
الخلاصة
يمثل GPT-5.4 نقطة تحول حقيقية لوكلاء الذكاء الاصطناعي المستقلين. إنه أول نموذج عام الأغراض يتفوق على الخبراء البشريين في استخدام كمبيوتر سطح المكتب، وهو يفعل ذلك مع كونه أرخص بنسبة 50% من منافسه الرئيسي. تعني تشكيلة الإصدارات الخمسة أن هناك GPT-5.4 لكل ميزانية ومتطلبات زمن استجابة.
ومع ذلك، فهو ليس الأفضل في كل شيء. لا يزال Claude Opus 4.6 هو الخيار الأقوى لهندسة البرمجيات المعقدة والاستدلال المجرد. ولا يزال Gemini 3.1 Pro يتصدر في العديد من مقاييس الاستدلال. الإجابة الصحيحة لمعظم الفرق ليست "أي نموذج هو الأفضل" ولكن "أي نموذج هو الأفضل لهذه المهمة".
إذا كنت تقوم ببناء منتجات مدعومة بالذكاء الاصطناعي وترغب في الاستفادة من نماذج مثل GPT-5.4 و Claude Opus 4.6 دون الغرق في تفاصيل البنية التحتية، فإن Y Build يساعدك على الإطلاق بشكل أسرع. نحن نوفر الأدوات والمنصة لبناء ونشر وتطوير تطبيقات الذكاء الاصطناعي — حتى تتمكن من التركيز على المنتج، وليس على التفاصيل التقنية المعقدة.
المصادر: إعلان OpenAI عن GPT-5.4، أسعار OpenAI API، دليل NxCode الكامل لـ GPT-5.4، مقارنة NxCode بين GPT-5.4 و Claude Opus 4.6، نظرة عامة DataCamp على GPT-5.4، Artificial Analysis GPT-5.4، مقارنة مقاييس MindStudio، Nerd Level Tech: GPT-5.4 يتفوق على البشر