GPT-5.3 Codex: סוכן הקידוד האוטונומי של OpenAI

תקציר (TL;DR)

OpenAI שחררה את GPT-5.3 Codex ב-5 בפברואר 2026 — באותו יום שבו Anthropic השיקה את Opus 4.6. נתונים מרכזיים:

Terminal-Bench 2.0: 77.3% — מוביל על כל המודלים בקידוד טרמינל סוכנותי (agentic)
SWE-Bench Pro: 56.8% — הציון הגבוה ביותר בארבע שפות תכנות
OSWorld: 64.7% — יכולות שימוש חזקות במחשב (אך מפגר אחרי 72.5% של Sonnet 4.6)
מהיר ב-25% יותר מ-GPT-5.2 Codex
אינטראקטיבי בזמן עבודה — ניתן לכוון את הסוכן באמצע משימה מבלי לאבד הקשר (context)
המודל הראשון בשיטת self-bootstrapping — מודל GPT-5.3 Codex עזר לנפות שגיאות (debug) באימון של עצמו
זמין באפליקציית Codex, ב-CLI, ובתוסף ל-IDE עבור מנויי ChatGPT בתשלום
תמחור ה-API טרם פורסם

מה OpenAI הכריזה

GPT-5.3 Codex הוא לא רק מודל קידוד טוב יותר. זהו המודל הראשון של OpenAI שתוכנן כסוכן למחזור חיים מלא של תוכנה — ניפוי שגיאות, פריסה (deployment), ניטור, כתיבת PRDs, עריכת תוכן, הרצת בדיקות ועוד.

תכונת הדגל: משימות אוטונומיות ארוכות טווח. תנו ל-GPT-5.3 Codex משימה מורכבת, והוא יעבוד עליה במשך שעות — יבצע מחקר, ישתמש בכלים, יריץ קוד ויסיגל את התוכנית שלו תוך כדי תנועה. ניתן לכוון אותו באמצע המשימה מבלי לאבד את ההקשר, בדומה לעבודה עם קולגה.

הטענה הפרובוקטיבית ביותר של OpenAI: GPT-5.3 Codex הוא "המודל הראשון שהיה חיוני ביצירת עצמו". צוות Codex השתמש בגרסאות מוקדמות כדי לנפות שגיאות בצינור האימון (training pipeline) שלו, לנהל את הפריסה ולנתח תוצאות הערכה (evaluation).

בנצ'מרקים (Benchmarks)

היכן GPT-5.3 Codex מוביל

בנצ'מרק	מה הוא בוחן	GPT-5.3 Codex	המתחרה הטוב ביותר
Terminal-Bench 2.0	קידוד טרמינל סוכנותי	77.3%	Gemini 3.1 Pro: 68.5%
SWE-Bench Pro	קידוד רב-לשוני	56.8%	Gemini 3.1 Pro: 54.2%
HumanEval	יצירת קוד	93%	—
GPQA	חשיבה מדעית	81%	Gemini 3.1 Pro: 94.3%

השוואה מלאה

בנצ'מרק	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	77.3%	65.4%	59.1%	68.5%
SWE-Bench Pro	56.8%	—	—	54.2%
OSWorld	64.7%	72.7%	72.5%	N/A
SWE-bench Verified	~80%	80.8%	79.6%	80.6%
ARC-AGI-2	52.9%	68.8%	58.3%	77.1%

מה המשמעות של המספרים

GPT-5.3 Codex שולט בקידוד טרמינל סוכנותי — סוג העבודה שבה סוכן AI צריך לנווט בבסיס קוד (codebase), להריץ פקודות, לפרש פלט, לתקן שגיאות ולבצע איטרציות. הציון של 77.3% ב-Terminal-Bench גבוה בכמעט 9 נקודות מהבא אחריו (Gemini 3.1 Pro עם 68.5%) וב-12 נקודות מ-Opus 4.6 (עם 65.4%).

אך בשימוש במחשב (OSWorld), הוא מפגר משמעותית אחרי Claude — עם 64.7% לעומת 72.5% של Sonnet 4.6. ובחשיבה (ARC-AGI-2), הוא נמצא הרחק מאחורי Gemini 3.1 Pro (77.1%) ו-Opus 4.6 (68.8%).

תכונות עיקריות

1. סשנים אוטונומיים של שעות

מודלי קידוד קודמים עבדו בפרצים קצרים — אתם נותנים פרומפט, המודל מגיב, ואתם נותנים פרומפט נוסף. GPT-5.3 Codex עובד ברצף על משימות מורכבות, ומנהל את זרימת העבודה של עצמו לאורך שלבים רבים.

דוגמה לזרימת עבודה: "העבר את מערכת האימות שלנו מ-JWT ל-OAuth 2.0, עדכן את כל נקודות הקצה (endpoints) המושפעות, כתוב בדיקות וּודא שההגירה עובדת". GPT-5.3 Codex יחקור את בסיס הקוד, יתכנן את ההגירה, יבצע אותה קובץ אחר קובץ, יריץ בדיקות, יתקן כשלים וידווח חזרה — תהליך שיכול להימשך שעות.

2. היגוי אינטראקטיבי (Interactive Steering)

ניתן לכוון מחדש את GPT-5.3 Codex בזמן שהוא עובד מבלי לאבד את ההקשר. אם אתם רואים שהוא פונה למסלול שגוי, ניתן להורות לו לשנות כיוון. השיחה נשארת רציפה.

3. מחזור חיים מלא של תוכנה

OpenAI ממצבת את GPT-5.3 Codex מעבר לכתיבת קוד בלבד:

Debugging — קורא לוגים של שגיאות, מאתר סיבות שורש ומחיל תיקונים
Deploying — מנהל צינורות פריסה (deployment pipelines) וקונפיגורציות
Monitoring — עוקב אחר בעיות במערכות רצות
PRDs ודוקומנטציה — כותב דרישות מוצר ותיעוד
מחקר משתמשים — מסכם משובים ותוצאות בדיקות
Testing — יוצר ומריץ סוויטות בדיקה
Metrics — מנתח נתוני ביצועים

4. Bootstrapping עצמי

GPT-5.3 Codex השתמש בגרסאות מוקדמות של עצמו במהלך הפיתוח כדי:

לנפות שגיאות בצינור האימון

לנהל את פריסת המודל

לאבחן תוצאות הערכה

לבצע איטרציות על פיתוח משחקים באופן אוטונומי על פני מיליוני טוקנים

זו הפעם הראשונה שמודל AI מתואר בפומבי ככזה שתרם ליצירה של עצמו.

GPT-5.3 Codex לעומת Claude Code

יכולת	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
קידוד טרמינל	77.3%	Opus: 65.4%, Sonnet: 59.1%
שימוש במחשב	64.7%	Sonnet: 72.5%, Opus: 72.7%
SWE-bench	~80%	Opus: 80.8%, Sonnet: 79.6%
אוטונומיה של שעות	כן	מוגבלת
היגוי אינטראקטיבי	כן	כן
אינטגרציה ל-IDE	Codex IDE extension	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
משימות משרדיות	מוגבל	Sonnet: 1633 Elo
עמידות להזרקת פרומפטים	סטנדרטית	ברמת Opus
תמחור API	טרם נקבע	$3/$15 (Sonnet), $15/$75 (Opus)

בחרו ב-GPT-5.3 Codex כאשר:

ישנן משימות קידוד אוטונומיות ארוכות (סשנים של שעות)
זרימות עבודה מבוססות טרמינל עם שרשראות כלים מורכבות
אתם כבר נמצאים באקו-סיסטם של OpenAI/ChatGPT
נדרשת אוטונומיה מלאה למחזור החיים של התוכנה

בחרו ב-Claude Code כאשר:

נדרש שימוש במחשב / אוטונומציה של הדפדפן (72.5% לעומת 64.7%)
נדרשות משימות משרדיות לצד קידוד
בטיחות הסוכן היא קריטית (עמידות טובה יותר להזרקת פרומפטים)
עלות ה-API צריכה להיות חזויה (תמחור ידוע של $3/$15)

זמינות

GPT-5.3 Codex זמין בתוכניות ChatGPT בתשלום (Plus, Pro, Team, Enterprise) דרך:

אפליקציית Codex (ווב) — ממשק סוכן אוטונומי מלא
Codex CLI — סוכן קידוד מבוסס טרמינל
תוסף ל-IDE — משולב בתוך העורך שלכם
API — יגיע בשבועות הקרובים (תמחור טרם נקבע)

כרגע אין גישה במסלול החינמי.

מה זה אומר עבור מפתחים

המרוץ אחר סוכני קידוד AI הוא אמיתי

ב-5 בפברואר 2026 ראינו גם את OpenAI וגם את Anthropic משחררות מודלים משמעותיים באותו יום — GPT-5.3 Codex ו-Claude Opus 4.6. המסר ברור: סוכני קידוד אוטונומיים הם שדה הקרב התחרותי העיקרי.

חוזקות שונות, זרימות עבודה שונות

GPT-5.3 Codex מצטיין בקידוד אוטונומי מבוסס טרמינל לאורך סשנים ארוכים. Claude מצטיין בשימוש במחשב, אינטגרציה משרדית ובטיחות. Gemini 3.1 Pro מוביל בחשיבה וביכולות מולטי-מודאליות.

עבור רוב המפתחים, הבחירה תלויה בזרימת העבודה שלכם:

עבודה אינטנסיבית ב-CLI/טרמינל ← GPT-5.3 Codex

אוטונומציה של דפדפן + משימות מעורבות ← Claude Code

עבודה מדעית/עתירת חשיבה ← Gemini 3.1 Pro

המודל הוא רק ההתחלה

המגמה בכל שלוש המעבדות: המודל לבדו אינו מספיק. אתם זקוקים לכלי פריסה, ניטור, אנליטיקה וצמיחה מסביבו. סוכן הקידוד מבוסס ה-AI כותב את הקוד, אבל השקת מוצר דורשת את כל ה-stack.

שחררו את מה שאתם בונים. Y Build מטפלת בכל מה שקורה אחרי הקוד: פריסה בלחיצה אחת, Demo Cut לסרטוני מוצר, AI SEO ואנליטיקה. עובד עם כל כלי קידוד AI. התחילו בחינם.

מקורות: