GPT-5.3 Codex: OpenAI's Autonomous Coding Agent

TL;DR

OpenAI випустила GPT-5.3 Codex 5 лютого 2026 року — того ж дня, коли Anthropic представила Opus 4.6. Ключові показники:

Terminal-Bench 2.0: 77.3% — лідирує серед усіх моделей в агентному термінальному кодуванні
SWE-Bench Pro: 56.8% — найкращий результат у чотирьох мовах програмування
OSWorld: 64.7% — впевнене керування комп'ютером (але поступається Sonnet 4.6 із його 72.5%)
На 25% швидша за GPT-5.2 Codex
Інтерактивність під час роботи — спрямовуйте агента посеред виконання завдання без втрати контексту
Перша модель із самозавантаженням (self-bootstrapping) — GPT-5.3 Codex допомогла відлагодити власне навчання
Доступно в додатку Codex, CLI та розширенні для IDE для платних планів ChatGPT
Ціни на API ще не опубліковані

Що анонсувала OpenAI

GPT-5.3 Codex — це не просто покращена модель для програмування. Це перша модель OpenAI, розроблена як агент повного життєвого циклу розробки ПЗ: відлагодження, деплой, моніторинг, написання PRD, редагування тексту, запуск тестів тощо.

Головна особливість: автономні тривалі завдання. Дайте GPT-5.3 Codex складне завдання, і вона працюватиме над ним годинами — проводячи дослідження, використовуючи інструменти, виконуючи код і адаптуючи свій план у процесі. Ви можете коригувати її дії під час роботи без втрати контексту, як при роботі з колегою.

Найбільш провокаційна заява OpenAI: GPT-5.3 Codex — це «перша модель, яка відіграла ключову роль у власному створенні». Команда Codex використовувала ранні версії для відлагодження власного конвеєра навчання, керування розгортанням та діагностики результатів оцінювання.

Бенчмарки

Де лідирує GPT-5.3 Codex

Бенчмарк	Що тестує	GPT-5.3 Codex	Найкращий конкурент
Terminal-Bench 2.0	Агентне термінальне кодування	77.3%	Gemini 3.1 Pro: 68.5%
SWE-Bench Pro	Багатомовне кодування	56.8%	Gemini 3.1 Pro: 54.2%
HumanEval	Генерація коду	93%	—
GPQA	Наукове мислення	81%	Gemini 3.1 Pro: 94.3%

Повне порівняння

Бенчмарк	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	77.3%	65.4%	59.1%	68.5%
SWE-Bench Pro	56.8%	—	—	54.2%
OSWorld	64.7%	72.7%	72.5%	N/A
SWE-bench Verified	~80%	80.8%	79.6%	80.6%
ARC-AGI-2	52.9%	68.8%	58.3%	77.1%

Що означають ці цифри

GPT-5.3 Codex домінує в агентному термінальному кодуванні — типі роботи, де ШІ-агент має орієнтуватися в кодовій базі, запускати команди, інтерпретувати вивід, виправляти помилки та ітерувати. Результат 77.3% у Terminal-Bench майже на 9 пунктів випереджає наступного найкращого конкурента (Gemini 3.1 Pro з 68.5%) і на 12 пунктів — Opus 4.6 (65.4%).

Однак у керуванні комп'ютером (OSWorld) вона помітно поступається Claude — 64.7% проти 72.5% у Sonnet 4.6. А в логічному мисленні (ARC-AGI-2) вона значно відстає від Gemini 3.1 Pro (77.1%) та Opus 4.6 (68.8%).

Ключові функції

1. Автономні багатогодинні сесії

Попередні моделі для кодування працювали короткими сплесками: ви даєте запит, вона відповідає, ви знову даєте запит. GPT-5.3 Codex працює безперервно над складними завданнями, самостійно керуючи робочим процесом через багато кроків.

Приклад робочого процесу: «Мігруй нашу систему автентифікації з JWT на OAuth 2.0, онови всі відповідні ендпоінти, напиши тести та перевір, чи працює міграція». GPT-5.3 Codex дослідить кодову базу, спланує міграцію, виконає її файл за файлом, запустить тести, виправить помилки та відзвітує — потенційно протягом кількох годин.

2. Інтерактивне керування

Ви можете перенаправити GPT-5.3 Codex під час роботи без втрати контексту. Якщо ви бачите, що вона йде хибним шляхом, скажіть їй змінити напрямок. Діалог залишається безперервним.

3. Повний життєвий цикл ПЗ

OpenAI чітко позиціонує GPT-5.3 Codex як інструмент, що виходить за межі простого написання коду:

Відлагодження — читає логи помилок, відстежує першопричини, застосовує виправлення
Деплой — керує конвеєрами розгортання та конфігураціями
Моніторинг — стежить за проблемами в працюючих системах
PRD та документація — пише вимоги до продукту та документацію
Дослідження користувачів — синтезує відгуки та результати тестування
Тестування — генерує та запускає набори тестів
Метрики — аналізує дані про продуктивність

4. Самозавантаження (Self-Bootstrapping)

GPT-5.3 Codex використовувала ранні версії самої себе під час розробки для:

Відлагодження проблем у конвеєрі навчання

Керування розгортанням моделі

Діагностики результатів оцінювання

Автономної ітерації розробки ігор протягом мільйонів токенів

Це перший випадок, коли модель ШІ публічно описується як така, що зробила внесок у власне створення.

GPT-5.3 Codex проти Claude Code

Можливість	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
Термінальне кодування	77.3%	Opus: 65.4%, Sonnet: 59.1%
Керування комп'ютером	64.7%	Sonnet: 72.5%, Opus: 72.7%
SWE-bench	~80%	Opus: 80.8%, Sonnet: 79.6%
Багатогодинна автономність	Так	Обмежено
Інтерактивне керування	Так	Так
Інтеграція з IDE	Codex IDE extension	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
Офісні завдання	Обмежено	Sonnet: 1633 Elo
Стійкість до промпт-ін'єкцій	Стандартна	Рівень Opus
Ціна API	Буде визначено	$3/$15 (Sonnet), $15/$75 (Opus)

Обирайте GPT-5.3 Codex, якщо:

Потрібні тривалі автономні завдання з кодування (багатогодинні сесії)
Робочі процеси зосереджені на терміналі зі складними ланцюжками інструментів
Ви вже перебуваєте в екосистемі OpenAI/ChatGPT
Потрібна повна автоматизація життєвого циклу ПЗ

Обирайте Claude Code, якщо:

Важливо керування комп'ютером / автоматизація браузера (72.5% проти 64.7%)
Виконуються офісні завдання паралельно з кодуванням
Безпека агента є критичною (краща стійкість до промпт-ін'єкцій)
Потрібна прогнозована вартість API (відомі ціни $3/$15)

Доступність

GPT-5.3 Codex доступна для платних планів ChatGPT (Plus, Pro, Team, Enterprise) через:

Додаток Codex (веб) — повний інтерфейс автономного агента
Codex CLI — термінальний агент для програмування
Розширення для IDE — інтегроване у ваш редактор
API — з'явиться протягом кількох тижнів (ціни уточнюються)

Наразі доступ на безкоштовному рівні відсутній.

Що це означає для розробників

Гонка агентів ШІ для програмування — це реальність

5 лютого 2026 року і OpenAI, і Anthropic випустили потужні моделі в один день — GPT-5.3 Codex та Claude Opus 4.6. Посил зрозумілий: автономні агенти для програмування є головним полем конкурентної боротьби.

Різні сильні сторони, різні робочі процеси

GPT-5.3 Codex перевершує інших у автономному термінальному кодуванні під час тривалих сесій. Claude демонструє кращі результати в керуванні комп'ютером, офісній інтеграції та безпеці. Gemini 3.1 Pro лідирує в логічному мисленні та мультимодальності.

Для більшості розробників вибір залежить від вашого робочого процесу:

Багато роботи в CLI/терміналі → GPT-5.3 Codex

Автоматизація браузера + змішані завдання → Claude Code

Наукова робота / завдання на логіку → Gemini 3.1 Pro

Модель — це лише початок

Тенденція всіх трьох лабораторій: самої моделі недостатньо. Навколо неї потрібні інструменти розгортання, моніторингу, аналітики та зростання. ШІ-агент пише код, але для випуску продукту потрібен повний стек.

Випускайте те, що створюєте. Y Build бере на себе все після написання коду: деплой в один клік, Demo Cut для відео продукту, AI SEO та аналітика. Працює з будь-яким ШІ-інструментом для програмування. Почати безкоштовно.

Джерела: