GPT-5.3 Codex: סוכן הקידוד האוטונומי של OpenAI
OpenAI שחררה את GPT-5.3 Codex ב-5 בפברואר 2026 — מודל ה-AI הראשון שעזר לבנות את עצמו. 77.3% ב-Terminal-Bench, 56.8% ב-SWE-Bench Pro, סשנים של קידוד אוטונומי הנמשכים שעות. פירוט מלא של תכונות, בנצ'מרקים והשוואה ל-Claude Code.
תקציר (TL;DR)
OpenAI שחררה את GPT-5.3 Codex ב-5 בפברואר 2026 — באותו יום שבו Anthropic השיקה את Opus 4.6. נתונים מרכזיים:
- Terminal-Bench 2.0: 77.3% — מוביל על כל המודלים בקידוד טרמינל סוכנותי (agentic)
- SWE-Bench Pro: 56.8% — הציון הגבוה ביותר בארבע שפות תכנות
- OSWorld: 64.7% — יכולות שימוש חזקות במחשב (אך מפגר אחרי 72.5% של Sonnet 4.6)
- מהיר ב-25% יותר מ-GPT-5.2 Codex
- אינטראקטיבי בזמן עבודה — ניתן לכוון את הסוכן באמצע משימה מבלי לאבד הקשר (context)
- המודל הראשון בשיטת self-bootstrapping — מודל GPT-5.3 Codex עזר לנפות שגיאות (debug) באימון של עצמו
- זמין באפליקציית Codex, ב-CLI, ובתוסף ל-IDE עבור מנויי ChatGPT בתשלום
- תמחור ה-API טרם פורסם
מה OpenAI הכריזה
GPT-5.3 Codex הוא לא רק מודל קידוד טוב יותר. זהו המודל הראשון של OpenAI שתוכנן כסוכן למחזור חיים מלא של תוכנה — ניפוי שגיאות, פריסה (deployment), ניטור, כתיבת PRDs, עריכת תוכן, הרצת בדיקות ועוד.
תכונת הדגל: משימות אוטונומיות ארוכות טווח. תנו ל-GPT-5.3 Codex משימה מורכבת, והוא יעבוד עליה במשך שעות — יבצע מחקר, ישתמש בכלים, יריץ קוד ויסיגל את התוכנית שלו תוך כדי תנועה. ניתן לכוון אותו באמצע המשימה מבלי לאבד את ההקשר, בדומה לעבודה עם קולגה.
הטענה הפרובוקטיבית ביותר של OpenAI: GPT-5.3 Codex הוא "המודל הראשון שהיה חיוני ביצירת עצמו". צוות Codex השתמש בגרסאות מוקדמות כדי לנפות שגיאות בצינור האימון (training pipeline) שלו, לנהל את הפריסה ולנתח תוצאות הערכה (evaluation).
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
בנצ'מרקים (Benchmarks)
היכן GPT-5.3 Codex מוביל
| בנצ'מרק | מה הוא בוחן | GPT-5.3 Codex | המתחרה הטוב ביותר |
|---|---|---|---|
| Terminal-Bench 2.0 | קידוד טרמינל סוכנותי | 77.3% | Gemini 3.1 Pro: 68.5% |
| SWE-Bench Pro | קידוד רב-לשוני | 56.8% | Gemini 3.1 Pro: 54.2% |
| HumanEval | יצירת קוד | 93% | — |
| GPQA | חשיבה מדעית | 81% | Gemini 3.1 Pro: 94.3% |
השוואה מלאה
| בנצ'מרק | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 77.3% | 65.4% | 59.1% | 68.5% |
| SWE-Bench Pro | 56.8% | — | — | 54.2% |
| OSWorld | 64.7% | 72.7% | 72.5% | N/A |
| SWE-bench Verified | ~80% | 80.8% | 79.6% | 80.6% |
| ARC-AGI-2 | 52.9% | 68.8% | 58.3% | 77.1% |
מה המשמעות של המספרים
GPT-5.3 Codex שולט בקידוד טרמינל סוכנותי — סוג העבודה שבה סוכן AI צריך לנווט בבסיס קוד (codebase), להריץ פקודות, לפרש פלט, לתקן שגיאות ולבצע איטרציות. הציון של 77.3% ב-Terminal-Bench גבוה בכמעט 9 נקודות מהבא אחריו (Gemini 3.1 Pro עם 68.5%) וב-12 נקודות מ-Opus 4.6 (עם 65.4%).
אך בשימוש במחשב (OSWorld), הוא מפגר משמעותית אחרי Claude — עם 64.7% לעומת 72.5% של Sonnet 4.6. ובחשיבה (ARC-AGI-2), הוא נמצא הרחק מאחורי Gemini 3.1 Pro (77.1%) ו-Opus 4.6 (68.8%).
תכונות עיקריות
1. סשנים אוטונומיים של שעות
מודלי קידוד קודמים עבדו בפרצים קצרים — אתם נותנים פרומפט, המודל מגיב, ואתם נותנים פרומפט נוסף. GPT-5.3 Codex עובד ברצף על משימות מורכבות, ומנהל את זרימת העבודה של עצמו לאורך שלבים רבים.
דוגמה לזרימת עבודה: "העבר את מערכת האימות שלנו מ-JWT ל-OAuth 2.0, עדכן את כל נקודות הקצה (endpoints) המושפעות, כתוב בדיקות וּודא שההגירה עובדת". GPT-5.3 Codex יחקור את בסיס הקוד, יתכנן את ההגירה, יבצע אותה קובץ אחר קובץ, יריץ בדיקות, יתקן כשלים וידווח חזרה — תהליך שיכול להימשך שעות.
2. היגוי אינטראקטיבי (Interactive Steering)
ניתן לכוון מחדש את GPT-5.3 Codex בזמן שהוא עובד מבלי לאבד את ההקשר. אם אתם רואים שהוא פונה למסלול שגוי, ניתן להורות לו לשנות כיוון. השיחה נשארת רציפה.
3. מחזור חיים מלא של תוכנה
OpenAI ממצבת את GPT-5.3 Codex מעבר לכתיבת קוד בלבד:
- Debugging — קורא לוגים של שגיאות, מאתר סיבות שורש ומחיל תיקונים
- Deploying — מנהל צינורות פריסה (deployment pipelines) וקונפיגורציות
- Monitoring — עוקב אחר בעיות במערכות רצות
- PRDs ודוקומנטציה — כותב דרישות מוצר ותיעוד
- מחקר משתמשים — מסכם משובים ותוצאות בדיקות
- Testing — יוצר ומריץ סוויטות בדיקה
- Metrics — מנתח נתוני ביצועים
4. Bootstrapping עצמי
GPT-5.3 Codex השתמש בגרסאות מוקדמות של עצמו במהלך הפיתוח כדי:
- לנפות שגיאות בצינור האימון
- לנהל את פריסת המודל
- לאבחן תוצאות הערכה
- לבצע איטרציות על פיתוח משחקים באופן אוטונומי על פני מיליוני טוקנים
זו הפעם הראשונה שמודל AI מתואר בפומבי ככזה שתרם ליצירה של עצמו.
GPT-5.3 Codex לעומת Claude Code
| יכולת | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| קידוד טרמינל | 77.3% | Opus: 65.4%, Sonnet: 59.1% |
| שימוש במחשב | 64.7% | Sonnet: 72.5%, Opus: 72.7% |
| SWE-bench | ~80% | Opus: 80.8%, Sonnet: 79.6% |
| אוטונומיה של שעות | כן | מוגבלת |
| היגוי אינטראקטיבי | כן | כן |
| אינטגרציה ל-IDE | Codex IDE extension | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| משימות משרדיות | מוגבל | Sonnet: 1633 Elo |
| עמידות להזרקת פרומפטים | סטנדרטית | ברמת Opus |
| תמחור API | טרם נקבע | $3/$15 (Sonnet), $15/$75 (Opus) |
- ישנן משימות קידוד אוטונומיות ארוכות (סשנים של שעות)
- זרימות עבודה מבוססות טרמינל עם שרשראות כלים מורכבות
- אתם כבר נמצאים באקו-סיסטם של OpenAI/ChatGPT
- נדרשת אוטונומיה מלאה למחזור החיים של התוכנה
- נדרש שימוש במחשב / אוטונומציה של הדפדפן (72.5% לעומת 64.7%)
- נדרשות משימות משרדיות לצד קידוד
- בטיחות הסוכן היא קריטית (עמידות טובה יותר להזרקת פרומפטים)
- עלות ה-API צריכה להיות חזויה (תמחור ידוע של $3/$15)
זמינות
GPT-5.3 Codex זמין בתוכניות ChatGPT בתשלום (Plus, Pro, Team, Enterprise) דרך:
- אפליקציית Codex (ווב) — ממשק סוכן אוטונומי מלא
- Codex CLI — סוכן קידוד מבוסס טרמינל
- תוסף ל-IDE — משולב בתוך העורך שלכם
- API — יגיע בשבועות הקרובים (תמחור טרם נקבע)
מה זה אומר עבור מפתחים
המרוץ אחר סוכני קידוד AI הוא אמיתי
ב-5 בפברואר 2026 ראינו גם את OpenAI וגם את Anthropic משחררות מודלים משמעותיים באותו יום — GPT-5.3 Codex ו-Claude Opus 4.6. המסר ברור: סוכני קידוד אוטונומיים הם שדה הקרב התחרותי העיקרי.
חוזקות שונות, זרימות עבודה שונות
GPT-5.3 Codex מצטיין בקידוד אוטונומי מבוסס טרמינל לאורך סשנים ארוכים. Claude מצטיין בשימוש במחשב, אינטגרציה משרדית ובטיחות. Gemini 3.1 Pro מוביל בחשיבה וביכולות מולטי-מודאליות.
עבור רוב המפתחים, הבחירה תלויה בזרימת העבודה שלכם:
- עבודה אינטנסיבית ב-CLI/טרמינל ← GPT-5.3 Codex
- אוטונומציה של דפדפן + משימות מעורבות ← Claude Code
- עבודה מדעית/עתירת חשיבה ← Gemini 3.1 Pro
המודל הוא רק ההתחלה
המגמה בכל שלוש המעבדות: המודל לבדו אינו מספיק. אתם זקוקים לכלי פריסה, ניטור, אנליטיקה וצמיחה מסביבו. סוכן הקידוד מבוסס ה-AI כותב את הקוד, אבל השקת מוצר דורשת את כל ה-stack.
שחררו את מה שאתם בונים. Y Build מטפלת בכל מה שקורה אחרי הקוד: פריסה בלחיצה אחת, Demo Cut לסרטוני מוצר, AI SEO ואנליטיקה. עובד עם כל כלי קידוד AI. התחילו בחינם.
מקורות:
- OpenAI: Introducing GPT-5.3-Codex
- OpenAI: GPT-5.3-Codex System Card
- Fortune: OpenAI GPT-5.3 Codex raises cybersecurity risks
- MarkTechPost: GPT-5.3-Codex agentic coding model
- DataCamp: GPT-5.3 Codex from coding to general work agent
- OfficeChai: Gemini 3.1 Pro Benchmarks (GPT-5.3 comparison)
- LLM Stats: GPT-5.3 Codex pricing and benchmarks
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.