GPT-5.3 Codex: OpenAI's Autonomous Coding Agent
OpenAI випустила GPT-5.3 Codex 5 лютого 2026 року — першу модель ШІ, яка допомогла створити саму себе. 77.3% Terminal-Bench, 56.8% SWE-Bench Pro, автономні багатогодинні сесії кодування. Повний огляд функцій, бенчмарків та порівняння з Claude Code.
TL;DR
OpenAI випустила GPT-5.3 Codex 5 лютого 2026 року — того ж дня, коли Anthropic представила Opus 4.6. Ключові показники:
- Terminal-Bench 2.0: 77.3% — лідирує серед усіх моделей в агентному термінальному кодуванні
- SWE-Bench Pro: 56.8% — найкращий результат у чотирьох мовах програмування
- OSWorld: 64.7% — впевнене керування комп'ютером (але поступається Sonnet 4.6 із його 72.5%)
- На 25% швидша за GPT-5.2 Codex
- Інтерактивність під час роботи — спрямовуйте агента посеред виконання завдання без втрати контексту
- Перша модель із самозавантаженням (self-bootstrapping) — GPT-5.3 Codex допомогла відлагодити власне навчання
- Доступно в додатку Codex, CLI та розширенні для IDE для платних планів ChatGPT
- Ціни на API ще не опубліковані
Що анонсувала OpenAI
GPT-5.3 Codex — це не просто покращена модель для програмування. Це перша модель OpenAI, розроблена як агент повного життєвого циклу розробки ПЗ: відлагодження, деплой, моніторинг, написання PRD, редагування тексту, запуск тестів тощо.
Головна особливість: автономні тривалі завдання. Дайте GPT-5.3 Codex складне завдання, і вона працюватиме над ним годинами — проводячи дослідження, використовуючи інструменти, виконуючи код і адаптуючи свій план у процесі. Ви можете коригувати її дії під час роботи без втрати контексту, як при роботі з колегою.
Найбільш провокаційна заява OpenAI: GPT-5.3 Codex — це «перша модель, яка відіграла ключову роль у власному створенні». Команда Codex використовувала ранні версії для відлагодження власного конвеєра навчання, керування розгортанням та діагностики результатів оцінювання.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Бенчмарки
Де лідирує GPT-5.3 Codex
| Бенчмарк | Що тестує | GPT-5.3 Codex | Найкращий конкурент |
|---|---|---|---|
| Terminal-Bench 2.0 | Агентне термінальне кодування | 77.3% | Gemini 3.1 Pro: 68.5% |
| SWE-Bench Pro | Багатомовне кодування | 56.8% | Gemini 3.1 Pro: 54.2% |
| HumanEval | Генерація коду | 93% | — |
| GPQA | Наукове мислення | 81% | Gemini 3.1 Pro: 94.3% |
Повне порівняння
| Бенчмарк | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 77.3% | 65.4% | 59.1% | 68.5% |
| SWE-Bench Pro | 56.8% | — | — | 54.2% |
| OSWorld | 64.7% | 72.7% | 72.5% | N/A |
| SWE-bench Verified | ~80% | 80.8% | 79.6% | 80.6% |
| ARC-AGI-2 | 52.9% | 68.8% | 58.3% | 77.1% |
Що означають ці цифри
GPT-5.3 Codex домінує в агентному термінальному кодуванні — типі роботи, де ШІ-агент має орієнтуватися в кодовій базі, запускати команди, інтерпретувати вивід, виправляти помилки та ітерувати. Результат 77.3% у Terminal-Bench майже на 9 пунктів випереджає наступного найкращого конкурента (Gemini 3.1 Pro з 68.5%) і на 12 пунктів — Opus 4.6 (65.4%).
Однак у керуванні комп'ютером (OSWorld) вона помітно поступається Claude — 64.7% проти 72.5% у Sonnet 4.6. А в логічному мисленні (ARC-AGI-2) вона значно відстає від Gemini 3.1 Pro (77.1%) та Opus 4.6 (68.8%).
Ключові функції
1. Автономні багатогодинні сесії
Попередні моделі для кодування працювали короткими сплесками: ви даєте запит, вона відповідає, ви знову даєте запит. GPT-5.3 Codex працює безперервно над складними завданнями, самостійно керуючи робочим процесом через багато кроків.
Приклад робочого процесу: «Мігруй нашу систему автентифікації з JWT на OAuth 2.0, онови всі відповідні ендпоінти, напиши тести та перевір, чи працює міграція». GPT-5.3 Codex дослідить кодову базу, спланує міграцію, виконає її файл за файлом, запустить тести, виправить помилки та відзвітує — потенційно протягом кількох годин.
2. Інтерактивне керування
Ви можете перенаправити GPT-5.3 Codex під час роботи без втрати контексту. Якщо ви бачите, що вона йде хибним шляхом, скажіть їй змінити напрямок. Діалог залишається безперервним.
3. Повний життєвий цикл ПЗ
OpenAI чітко позиціонує GPT-5.3 Codex як інструмент, що виходить за межі простого написання коду:
- Відлагодження — читає логи помилок, відстежує першопричини, застосовує виправлення
- Деплой — керує конвеєрами розгортання та конфігураціями
- Моніторинг — стежить за проблемами в працюючих системах
- PRD та документація — пише вимоги до продукту та документацію
- Дослідження користувачів — синтезує відгуки та результати тестування
- Тестування — генерує та запускає набори тестів
- Метрики — аналізує дані про продуктивність
4. Самозавантаження (Self-Bootstrapping)
GPT-5.3 Codex використовувала ранні версії самої себе під час розробки для:
- Відлагодження проблем у конвеєрі навчання
- Керування розгортанням моделі
- Діагностики результатів оцінювання
- Автономної ітерації розробки ігор протягом мільйонів токенів
Це перший випадок, коли модель ШІ публічно описується як така, що зробила внесок у власне створення.
GPT-5.3 Codex проти Claude Code
| Можливість | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| Термінальне кодування | 77.3% | Opus: 65.4%, Sonnet: 59.1% |
| Керування комп'ютером | 64.7% | Sonnet: 72.5%, Opus: 72.7% |
| SWE-bench | ~80% | Opus: 80.8%, Sonnet: 79.6% |
| Багатогодинна автономність | Так | Обмежено |
| Інтерактивне керування | Так | Так |
| Інтеграція з IDE | Codex IDE extension | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| Офісні завдання | Обмежено | Sonnet: 1633 Elo |
| Стійкість до промпт-ін'єкцій | Стандартна | Рівень Opus |
| Ціна API | Буде визначено | $3/$15 (Sonnet), $15/$75 (Opus) |
- Потрібні тривалі автономні завдання з кодування (багатогодинні сесії)
- Робочі процеси зосереджені на терміналі зі складними ланцюжками інструментів
- Ви вже перебуваєте в екосистемі OpenAI/ChatGPT
- Потрібна повна автоматизація життєвого циклу ПЗ
- Важливо керування комп'ютером / автоматизація браузера (72.5% проти 64.7%)
- Виконуються офісні завдання паралельно з кодуванням
- Безпека агента є критичною (краща стійкість до промпт-ін'єкцій)
- Потрібна прогнозована вартість API (відомі ціни $3/$15)
Доступність
GPT-5.3 Codex доступна для платних планів ChatGPT (Plus, Pro, Team, Enterprise) через:
- Додаток Codex (веб) — повний інтерфейс автономного агента
- Codex CLI — термінальний агент для програмування
- Розширення для IDE — інтегроване у ваш редактор
- API — з'явиться протягом кількох тижнів (ціни уточнюються)
Що це означає для розробників
Гонка агентів ШІ для програмування — це реальність
5 лютого 2026 року і OpenAI, і Anthropic випустили потужні моделі в один день — GPT-5.3 Codex та Claude Opus 4.6. Посил зрозумілий: автономні агенти для програмування є головним полем конкурентної боротьби.
Різні сильні сторони, різні робочі процеси
GPT-5.3 Codex перевершує інших у автономному термінальному кодуванні під час тривалих сесій. Claude демонструє кращі результати в керуванні комп'ютером, офісній інтеграції та безпеці. Gemini 3.1 Pro лідирує в логічному мисленні та мультимодальності.
Для більшості розробників вибір залежить від вашого робочого процесу:
- Багато роботи в CLI/терміналі → GPT-5.3 Codex
- Автоматизація браузера + змішані завдання → Claude Code
- Наукова робота / завдання на логіку → Gemini 3.1 Pro
Модель — це лише початок
Тенденція всіх трьох лабораторій: самої моделі недостатньо. Навколо неї потрібні інструменти розгортання, моніторингу, аналітики та зростання. ШІ-агент пише код, але для випуску продукту потрібен повний стек.
Випускайте те, що створюєте. Y Build бере на себе все після написання коду: деплой в один клік, Demo Cut для відео продукту, AI SEO та аналітика. Працює з будь-яким ШІ-інструментом для програмування. Почати безкоштовно.
Джерела:
- OpenAI: Introducing GPT-5.3-Codex
- OpenAI: GPT-5.3-Codex System Card
- Fortune: OpenAI GPT-5.3 Codex raises cybersecurity risks
- MarkTechPost: GPT-5.3-Codex agentic coding model
- DataCamp: GPT-5.3 Codex from coding to general work agent
- OfficeChai: Gemini 3.1 Pro Benchmarks (GPT-5.3 comparison)
- LLM Stats: GPT-5.3 Codex pricing and benchmarks
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.