GPT-5.3 Codex: عميل البرمجة المستقل من OpenAI

TL;DR

أطلقت OpenAI نموذج GPT-5.3 Codex في 5 فبراير 2026 — وهو نفس اليوم الذي أطلقت فيه Anthropic نموذج Opus 4.6. الإحصائيات الرئيسية:

Terminal-Bench 2.0: 77.3% — يتصدر جميع النماذج في البرمجة الموجهة عبر التيرمينال (Terminal)
SWE-Bench Pro: 56.8% — أعلى درجة عبر أربع لغات برمجة
OSWorld: 64.7% — أداء قوي في استخدام الحاسوب (لكنه يتخلف عن Sonnet 4.6 الذي حقق 72.5%)
أسرع بنسبة 25% من GPT-5.2 Codex
تفاعلي أثناء العمل — يمكنك توجيه العميل في منتصف المهمة دون فقدان السياق
أول نموذج ذاتي التمهيد (Self-bootstrapping) — ساعد GPT-5.3 Codex في تصحيح أخطاء التدريب الخاص به
متاح في تطبيق Codex، وواجهة CLI، وإضافة IDE لمشتركي ChatGPT المدفوعة
أسعار API لم تنشر بعد

ما أعلنته OpenAI

ليس GPT-5.3 Codex مجرد نموذج برمجة أفضل فحسب؛ بل هو أول نموذج من OpenAI صُمم كـ عميل لدورة حياة البرمجيات الكاملة — من تصحيح الأخطاء (debugging)، والنشر (deploying)، والمراقبة (monitoring)، وكتابة وثائق متطلبات المنتج (PRDs)، وتحرير النصوص، وتشغيل الاختبارات، والمزيد.

الميزة الأبرز: المهام المستقلة طويلة الأمد. امنح GPT-5.3 Codex مهمة معقدة، وسيعمل عليها لساعات — حيث سيقوم بالبحث، واستخدام الأدوات، وتنفيذ الكود، وتعديل خطته أثناء العمل. يمكنك توجيهه في منتصف المهمة دون فقدان السياق، تماماً كما لو كنت تعمل مع زميل.

ادعاء OpenAI الأكثر إثارة للجدل: أن GPT-5.3 Codex هو "أول نموذج كان له دور أساسي في إنشاء نفسه". استخدم فريق Codex إصدارات مبكرة منه لتصحيح أخطاء خط أنابيب التدريب الخاص به، وإدارة عملية النشر، وتشخيص نتائج التقييم.

مقاييس الأداء (Benchmarks)

المجالات التي يتصدر فيها GPT-5.3 Codex

مقياس الأداء	ما الذي يختبره	GPT-5.3 Codex	أفضل منافس
Terminal-Bench 2.0	البرمجة المستقلة عبر التيرمينال	77.3%	Gemini 3.1 Pro: 68.5%
SWE-Bench Pro	البرمجة متعددة اللغات	56.8%	Gemini 3.1 Pro: 54.2%
HumanEval	توليد الكود	93%	—
GPQA	الاستنتاج العلمي	81%	Gemini 3.1 Pro: 94.3%

المقارنة الكاملة

مقياس الأداء	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	77.3%	65.4%	59.1%	68.5%
SWE-Bench Pro	56.8%	—	—	54.2%
OSWorld	64.7%	72.7%	72.5%	N/A
SWE-bench Verified	~80%	80.8%	79.6%	80.6%
ARC-AGI-2	52.9%	68.8%	58.3%	77.1%

ماذا تعني هذه الأرقام؟

يهيمن GPT-5.3 Codex في البرمجة المستقلة عبر التيرمينال — وهي نوع العمل الذي يحتاج فيه وكيل الذكاء الاصطناعي إلى التنقل في قاعدة الكود، وتشغيل الأوامر، وتفسير النتائج، وإصلاح الأخطاء، والتكرار. نتيجة 77.3% في Terminal-Bench تسبق المنافس التالي (Gemini 3.1 Pro بنسبة 68.5%) بنحو 9 نقاط، وتتفوق على Opus 4.6 (بنسبة 65.4%) بـ 12 نقطة.

ولكن في استخدام الحاسوب (OSWorld)، فإنه يتخلف عن Claude بشكل ملحوظ — 64.7% مقابل 72.5% لنموذج Sonnet 4.6. وفي الاستنتاج (ARC-AGI-2)، فإنه يتخلف كثيراً عن Gemini 3.1 Pro (77.1%) و Opus 4.6 (68.8%).

الميزات الرئيسية

1. جلسات مستقلة تستمر لساعات

كانت نماذج البرمجة السابقة تعمل في دفعات قصيرة — تعطيها أمراً، فتستجيب، ثم تعطيها أمراً آخر. أما GPT-5.3 Codex فيعمل بشكل مستمر على المهام المعقدة، ويدير سير العمل الخاص به عبر خطوات عديدة.

مثال لسير عمل: "قم بنقل نظام المصادقة الخاص بنا من JWT إلى OAuth 2.0، وقم بتحديث جميع المسارات المتأثرة، واكتب الاختبارات، وتحقق من نجاح عملية النقل." سيقوم GPT-5.3 Codex بالبحث في قاعدة الكود، والتخطيط للنقل، وتنفيذه ملفاً بملف، وتشغيل الاختبارات، وإصلاح الإخفاقات، وتقديم تقرير — وقد يستغرق ذلك ساعات.

2. التوجيه التفاعلي

يمكنك إعادة توجيه GPT-5.3 Codex أثناء عمله دون فقدان السياق. إذا رأيته يتجه في المسار الخاطئ، يمكنك إخباره بتغيير الاتجاه، وستظل المحادثة مستمرة دون انقطاع.

3. دورة حياة البرمجيات الكاملة

تضع OpenAI نموذج GPT-5.3 Codex في مكانة تتجاوز مجرد كتابة الكود:

تصحيح الأخطاء (Debugging) — يقرأ سجلات الأخطاء، ويتتبع الأسباب الجذرية، ويطبق الإصلاحات.
النشر (Deploying) — يدير خطوط أنابيب النشر والإعدادات.
المراقبة (Monitoring) — يراقب المشكلات في الأنظمة المشغلة.
وثائق PRDs والمستندات — يكتب متطلبات المنتج والتوثيق الفني.
أبحاث المستخدمين — يلخص الملاحظات ونتائج الاختبارات.
الاختبار (Testing) — يولد ويشغل مجموعات الاختبار.
المقاييس (Metrics) — يحلل بيانات الأداء.

4. التمهيد الذاتي (Self-Bootstrapping)

استخدم GPT-5.3 Codex إصدارات مبكرة من نفسه أثناء التطوير من أجل:

تصحيح مشكلات خط أنابيب التدريب.

إدارة نشر النموذج.

تشخيص نتائج التقييم.

التكرار في تطوير الألعاب بشكل مستقل عبر ملايين التوكنز (Tokens).

هذه هي المرة الأولى التي يتم فيها وصف نموذج ذكاء اصطناعي علناً بأنه ساهم في إنشاء نفسه.

GPT-5.3 Codex ضد Claude Code

القدرة	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
البرمجة عبر التيرمينال	77.3%	Opus: 65.4%, Sonnet: 59.1%
استخدام الحاسوب	64.7%	Sonnet: 72.5%, Opus: 72.7%
SWE-bench	~80%	Opus: 80.8%, Sonnet: 79.6%
استقلالية لساعات طويلة	نعم	محدودة
التوجيه التفاعلي	نعم	نعم
التكامل مع IDE	إضافة Codex IDE	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
المهام المكتبية	محدودة	Sonnet: 1633 Elo
مقاومة حقن الأوامر	قياسية	بمستوى Opus
أسعار API	لم تحدد بعد	$3/$15 (Sonnet), $15/$75 (Opus)

اختر GPT-5.3 Codex عندما:

تحتاج لمهام برمجة مستقلة طويلة الأمد (جلسات لعدة ساعات).
يكون سير العمل يعتمد بكثافة على التيرمينال مع سلاسل أدوات معقدة.
كنت تستخدم بالفعل منظومة OpenAI/ChatGPT.
تريد أتمتة دورة حياة البرمجيات بالكامل.

اختر Claude Code عندما:

تحتاج لاستخدام الحاسوب / أتمتة المتصفح (72.5% مقابل 64.7%).
تحتاج للقيام بمهام مكتبية بجانب البرمجة.
تكون سلامة العميل أمراً حرجاً (مقاومة أفضل لحقن الأوامر - prompt injection).
تحتاج للقدرة على التنبؤ بتكلفة API (الأسعار المعروفة $3/$15).

التوفر

يتوفر GPT-5.3 Codex للخطط المدفوعة في ChatGPT (Plus، Pro، Team، Enterprise) عبر:

تطبيق Codex (ويب) — واجهة كاملة للعميل المستقل.
Codex CLI — عميل برمجة يعتمد على التيرمينال.
إضافة IDE — متكاملة داخل محرر الأكواد الخاص بك.
API — قادم خلال أسابيع (الأسعار لم تحدد بعد).

لا يتوفر وصول للمستوى المجاني حالياً.

ماذا يعني هذا للمطورين

سباق عملاء البرمجة بالذكاء الاصطناعي حقيقي

شهد يوم 5 فبراير 2026 إصدار كل من OpenAI و Anthropic لنماذج كبرى في نفس اليوم — GPT-5.3 Codex و Claude Opus 4.6. الرسالة واضحة: عملاء البرمجة المستقلون هم ساحة المعركة التنافسية الرئيسية.

نقاط قوة مختلفة، مسارات عمل مختلفة

يتفوق GPT-5.3 Codex في البرمجة المستقلة المعتمدة على التيرمينال عبر جلسات طويلة. بينما يتفوق Claude في استخدام الحاسوب، والتكامل المكتبي، والسلامة. ويتصدر Gemini 3.1 Pro في الاستنتاج والوسائط المتعددة.

بالنسبة لمعظم المطورين، يعتمد الاختيار على سير عملك:

عمل مكثف على CLI/التيرمينال ← GPT-5.3 Codex

أتمتة المتصفح + مهام مختلطة ← Claude Code

عمل يعتمد بكثافة على العلوم/الاستنتاج ← Gemini 3.1 Pro

النموذج هو مجرد البداية

الاتجاه السائد عبر المختبرات الثلاثة هو: النموذج وحده لا يكفي. أنت بحاجة إلى أدوات النشر والمراقبة والتحليلات والنمو من حوله. يقوم وكيل البرمجة بالذكاء الاصطناعي بكتابة الكود، ولكن شحن المنتج يتطلب الحزمة الكاملة (Full Stack).

اشحن ما تبنيه. يتعامل Y Build مع كل شيء بعد الكود: النشر بنقرة واحدة، و Demo Cut لفيديوهات المنتجات، و AI SEO، والتحليلات. يعمل مع أي أداة برمجة بالذكاء الاصطناعي. ابدأ مجاناً.

المصادر: