GPT-5.3 Codex: عميل البرمجة المستقل من OpenAI
أطلقت OpenAI نموذج GPT-5.3 Codex في 5 فبراير 2026 — أول نموذج ذكاء اصطناعي ساعد في بناء نفسه. حقق 77.3% في Terminal-Bench، و56.8% في SWE-Bench Pro، مع جلسات برمجة مستقلة تستمر لساعات. تحليل كامل للميزات، والمقاييس، وكيف يتقارن مع Claude Code.
TL;DR
أطلقت OpenAI نموذج GPT-5.3 Codex في 5 فبراير 2026 — وهو نفس اليوم الذي أطلقت فيه Anthropic نموذج Opus 4.6. الإحصائيات الرئيسية:
- Terminal-Bench 2.0: 77.3% — يتصدر جميع النماذج في البرمجة الموجهة عبر التيرمينال (Terminal)
- SWE-Bench Pro: 56.8% — أعلى درجة عبر أربع لغات برمجة
- OSWorld: 64.7% — أداء قوي في استخدام الحاسوب (لكنه يتخلف عن Sonnet 4.6 الذي حقق 72.5%)
- أسرع بنسبة 25% من GPT-5.2 Codex
- تفاعلي أثناء العمل — يمكنك توجيه العميل في منتصف المهمة دون فقدان السياق
- أول نموذج ذاتي التمهيد (Self-bootstrapping) — ساعد GPT-5.3 Codex في تصحيح أخطاء التدريب الخاص به
- متاح في تطبيق Codex، وواجهة CLI، وإضافة IDE لمشتركي ChatGPT المدفوعة
- أسعار API لم تنشر بعد
ما أعلنته OpenAI
ليس GPT-5.3 Codex مجرد نموذج برمجة أفضل فحسب؛ بل هو أول نموذج من OpenAI صُمم كـ عميل لدورة حياة البرمجيات الكاملة — من تصحيح الأخطاء (debugging)، والنشر (deploying)، والمراقبة (monitoring)، وكتابة وثائق متطلبات المنتج (PRDs)، وتحرير النصوص، وتشغيل الاختبارات، والمزيد.
الميزة الأبرز: المهام المستقلة طويلة الأمد. امنح GPT-5.3 Codex مهمة معقدة، وسيعمل عليها لساعات — حيث سيقوم بالبحث، واستخدام الأدوات، وتنفيذ الكود، وتعديل خطته أثناء العمل. يمكنك توجيهه في منتصف المهمة دون فقدان السياق، تماماً كما لو كنت تعمل مع زميل.
ادعاء OpenAI الأكثر إثارة للجدل: أن GPT-5.3 Codex هو "أول نموذج كان له دور أساسي في إنشاء نفسه". استخدم فريق Codex إصدارات مبكرة منه لتصحيح أخطاء خط أنابيب التدريب الخاص به، وإدارة عملية النشر، وتشخيص نتائج التقييم.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
مقاييس الأداء (Benchmarks)
المجالات التي يتصدر فيها GPT-5.3 Codex
| مقياس الأداء | ما الذي يختبره | GPT-5.3 Codex | أفضل منافس |
|---|---|---|---|
| Terminal-Bench 2.0 | البرمجة المستقلة عبر التيرمينال | 77.3% | Gemini 3.1 Pro: 68.5% |
| SWE-Bench Pro | البرمجة متعددة اللغات | 56.8% | Gemini 3.1 Pro: 54.2% |
| HumanEval | توليد الكود | 93% | — |
| GPQA | الاستنتاج العلمي | 81% | Gemini 3.1 Pro: 94.3% |
المقارنة الكاملة
| مقياس الأداء | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 77.3% | 65.4% | 59.1% | 68.5% |
| SWE-Bench Pro | 56.8% | — | — | 54.2% |
| OSWorld | 64.7% | 72.7% | 72.5% | N/A |
| SWE-bench Verified | ~80% | 80.8% | 79.6% | 80.6% |
| ARC-AGI-2 | 52.9% | 68.8% | 58.3% | 77.1% |
ماذا تعني هذه الأرقام؟
يهيمن GPT-5.3 Codex في البرمجة المستقلة عبر التيرمينال — وهي نوع العمل الذي يحتاج فيه وكيل الذكاء الاصطناعي إلى التنقل في قاعدة الكود، وتشغيل الأوامر، وتفسير النتائج، وإصلاح الأخطاء، والتكرار. نتيجة 77.3% في Terminal-Bench تسبق المنافس التالي (Gemini 3.1 Pro بنسبة 68.5%) بنحو 9 نقاط، وتتفوق على Opus 4.6 (بنسبة 65.4%) بـ 12 نقطة.
ولكن في استخدام الحاسوب (OSWorld)، فإنه يتخلف عن Claude بشكل ملحوظ — 64.7% مقابل 72.5% لنموذج Sonnet 4.6. وفي الاستنتاج (ARC-AGI-2)، فإنه يتخلف كثيراً عن Gemini 3.1 Pro (77.1%) و Opus 4.6 (68.8%).
الميزات الرئيسية
1. جلسات مستقلة تستمر لساعات
كانت نماذج البرمجة السابقة تعمل في دفعات قصيرة — تعطيها أمراً، فتستجيب، ثم تعطيها أمراً آخر. أما GPT-5.3 Codex فيعمل بشكل مستمر على المهام المعقدة، ويدير سير العمل الخاص به عبر خطوات عديدة.
مثال لسير عمل: "قم بنقل نظام المصادقة الخاص بنا من JWT إلى OAuth 2.0، وقم بتحديث جميع المسارات المتأثرة، واكتب الاختبارات، وتحقق من نجاح عملية النقل." سيقوم GPT-5.3 Codex بالبحث في قاعدة الكود، والتخطيط للنقل، وتنفيذه ملفاً بملف، وتشغيل الاختبارات، وإصلاح الإخفاقات، وتقديم تقرير — وقد يستغرق ذلك ساعات.
2. التوجيه التفاعلي
يمكنك إعادة توجيه GPT-5.3 Codex أثناء عمله دون فقدان السياق. إذا رأيته يتجه في المسار الخاطئ، يمكنك إخباره بتغيير الاتجاه، وستظل المحادثة مستمرة دون انقطاع.
3. دورة حياة البرمجيات الكاملة
تضع OpenAI نموذج GPT-5.3 Codex في مكانة تتجاوز مجرد كتابة الكود:
- تصحيح الأخطاء (Debugging) — يقرأ سجلات الأخطاء، ويتتبع الأسباب الجذرية، ويطبق الإصلاحات.
- النشر (Deploying) — يدير خطوط أنابيب النشر والإعدادات.
- المراقبة (Monitoring) — يراقب المشكلات في الأنظمة المشغلة.
- وثائق PRDs والمستندات — يكتب متطلبات المنتج والتوثيق الفني.
- أبحاث المستخدمين — يلخص الملاحظات ونتائج الاختبارات.
- الاختبار (Testing) — يولد ويشغل مجموعات الاختبار.
- المقاييس (Metrics) — يحلل بيانات الأداء.
4. التمهيد الذاتي (Self-Bootstrapping)
استخدم GPT-5.3 Codex إصدارات مبكرة من نفسه أثناء التطوير من أجل:
- تصحيح مشكلات خط أنابيب التدريب.
- إدارة نشر النموذج.
- تشخيص نتائج التقييم.
- التكرار في تطوير الألعاب بشكل مستقل عبر ملايين التوكنز (Tokens).
هذه هي المرة الأولى التي يتم فيها وصف نموذج ذكاء اصطناعي علناً بأنه ساهم في إنشاء نفسه.
GPT-5.3 Codex ضد Claude Code
| القدرة | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| البرمجة عبر التيرمينال | 77.3% | Opus: 65.4%, Sonnet: 59.1% |
| استخدام الحاسوب | 64.7% | Sonnet: 72.5%, Opus: 72.7% |
| SWE-bench | ~80% | Opus: 80.8%, Sonnet: 79.6% |
| استقلالية لساعات طويلة | نعم | محدودة |
| التوجيه التفاعلي | نعم | نعم |
| التكامل مع IDE | إضافة Codex IDE | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| المهام المكتبية | محدودة | Sonnet: 1633 Elo |
| مقاومة حقن الأوامر | قياسية | بمستوى Opus |
| أسعار API | لم تحدد بعد | $3/$15 (Sonnet), $15/$75 (Opus) |
- تحتاج لمهام برمجة مستقلة طويلة الأمد (جلسات لعدة ساعات).
- يكون سير العمل يعتمد بكثافة على التيرمينال مع سلاسل أدوات معقدة.
- كنت تستخدم بالفعل منظومة OpenAI/ChatGPT.
- تريد أتمتة دورة حياة البرمجيات بالكامل.
- تحتاج لاستخدام الحاسوب / أتمتة المتصفح (72.5% مقابل 64.7%).
- تحتاج للقيام بمهام مكتبية بجانب البرمجة.
- تكون سلامة العميل أمراً حرجاً (مقاومة أفضل لحقن الأوامر - prompt injection).
- تحتاج للقدرة على التنبؤ بتكلفة API (الأسعار المعروفة $3/$15).
التوفر
يتوفر GPT-5.3 Codex للخطط المدفوعة في ChatGPT (Plus، Pro، Team، Enterprise) عبر:
- تطبيق Codex (ويب) — واجهة كاملة للعميل المستقل.
- Codex CLI — عميل برمجة يعتمد على التيرمينال.
- إضافة IDE — متكاملة داخل محرر الأكواد الخاص بك.
- API — قادم خلال أسابيع (الأسعار لم تحدد بعد).
ماذا يعني هذا للمطورين
سباق عملاء البرمجة بالذكاء الاصطناعي حقيقي
شهد يوم 5 فبراير 2026 إصدار كل من OpenAI و Anthropic لنماذج كبرى في نفس اليوم — GPT-5.3 Codex و Claude Opus 4.6. الرسالة واضحة: عملاء البرمجة المستقلون هم ساحة المعركة التنافسية الرئيسية.
نقاط قوة مختلفة، مسارات عمل مختلفة
يتفوق GPT-5.3 Codex في البرمجة المستقلة المعتمدة على التيرمينال عبر جلسات طويلة. بينما يتفوق Claude في استخدام الحاسوب، والتكامل المكتبي، والسلامة. ويتصدر Gemini 3.1 Pro في الاستنتاج والوسائط المتعددة.
بالنسبة لمعظم المطورين، يعتمد الاختيار على سير عملك:
- عمل مكثف على CLI/التيرمينال ← GPT-5.3 Codex
- أتمتة المتصفح + مهام مختلطة ← Claude Code
- عمل يعتمد بكثافة على العلوم/الاستنتاج ← Gemini 3.1 Pro
النموذج هو مجرد البداية
الاتجاه السائد عبر المختبرات الثلاثة هو: النموذج وحده لا يكفي. أنت بحاجة إلى أدوات النشر والمراقبة والتحليلات والنمو من حوله. يقوم وكيل البرمجة بالذكاء الاصطناعي بكتابة الكود، ولكن شحن المنتج يتطلب الحزمة الكاملة (Full Stack).
اشحن ما تبنيه. يتعامل Y Build مع كل شيء بعد الكود: النشر بنقرة واحدة، و Demo Cut لفيديوهات المنتجات، و AI SEO، والتحليلات. يعمل مع أي أداة برمجة بالذكاء الاصطناعي. ابدأ مجاناً.
المصادر:
- OpenAI: Introducing GPT-5.3-Codex
- OpenAI: GPT-5.3-Codex System Card
- Fortune: OpenAI GPT-5.3 Codex raises cybersecurity risks
- MarkTechPost: GPT-5.3-Codex agentic coding model
- DataCamp: GPT-5.3 Codex from coding to general work agent
- OfficeChai: Gemini 3.1 Pro Benchmarks (GPT-5.3 comparison)
- LLM Stats: GPT-5.3 Codex pricing and benchmarks
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.