GPT-5.3 Codex: Автономный агент для программирования от OpenAI

TL;DR

OpenAI выпустила GPT-5.3 Codex 5 февраля 2026 года — в тот же день, когда Anthropic представила Opus 4.6. Ключевые показатели:

Terminal-Bench 2.0: 77.3% — лидирует среди всех моделей в агентном написании кода через терминал
SWE-Bench Pro: 56.8% — лучший результат по четырем языкам программирования
OSWorld: 64.7% — уверенное использование компьютера (но уступает 72.5% у Sonnet 4.6)
На 25% быстрее, чем GPT-5.2 Codex
Интерактивность во время работы — направляйте агента в процессе выполнения задачи без потери контекста
Первая самозагружающаяся (self-bootstrapping) модель — GPT-5.3 Codex помогла отладить собственное обучение
Доступно в приложении Codex, CLI и расширении для IDE в рамках платных планов ChatGPT
Цены на API еще не опубликованы

Что анонсировала OpenAI

GPT-5.3 Codex — это не просто улучшенная модель для кодинга. Это первая модель OpenAI, спроектированная как агент полного жизненного цикла разработки ПО: отладка, развертывание, мониторинг, написание PRD, редактирование текстов, запуск тестов и многое другое.

Главная особенность: автономные длительные задачи. Дайте GPT-5.3 Codex сложное задание, и она будет работать над ним часами — проводя исследования, используя инструменты, выполняя код и адаптируя свой план на ходу. Вы можете корректировать ее действия в процессе, не теряя контекста, как при работе с коллегой.

Самое резонансное заявление OpenAI: GPT-5.3 Codex — это «первая модель, сыгравшая ключевую роль в своем собственном создании». Команда Codex использовала ранние версии для отладки пайплайна обучения, управления деплоем и диагностики результатов оценки.

Бенчмарки

Где лидирует GPT-5.3 Codex

Бенчмарк	Что тестирует	GPT-5.3 Codex	Лучший конкурент
Terminal-Bench 2.0	Агентный кодинг в терминале	77.3%	Gemini 3.1 Pro: 68.5%
SWE-Bench Pro	Мультиязычный кодинг	56.8%	Gemini 3.1 Pro: 54.2%
HumanEval	Генерация кода	93%	—
GPQA	Научное мышление	81%	Gemini 3.1 Pro: 94.3%

Полное сравнение

Бенчмарк	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	77.3%	65.4%	59.1%	68.5%
SWE-Bench Pro	56.8%	—	—	54.2%
OSWorld	64.7%	72.7%	72.5%	N/A
SWE-bench Verified	~80%	80.8%	79.6%	80.6%
ARC-AGI-2	52.9%	68.8%	58.3%	77.1%

Что значат эти цифры

GPT-5.3 Codex доминирует в агентном кодинге в терминале — типе работы, где ИИ-агенту нужно ориентироваться в кодовой базе, запускать команды, интерпретировать вывод, исправлять ошибки и итерировать. Результат 77.3% в Terminal-Bench почти на 9 пунктов опережает ближайшего преследователя (Gemini 3.1 Pro с 68.5%) и на 12 пунктов — Opus 4.6 (65.4%).

Однако в использовании компьютера (OSWorld) она заметно отстает от Claude — 64.7% против 72.5% у Sonnet 4.6. А в логическом мышлении (ARC-AGI-2) она сильно уступает Gemini 3.1 Pro (77.1%) и Opus 4.6 (68.8%).

Основные возможности

1. Автономные многочасовые сессии

Предыдущие модели для кодинга работали короткими рывками: вы даете промпт, она отвечает, вы даете следующий. GPT-5.3 Codex работает непрерывно над сложными задачами, самостоятельно управляя рабочим процессом на протяжении многих шагов.

Пример рабочего процесса: «Перенеси нашу систему аутентификации с JWT на OAuth 2.0, обнови все задействованные эндпоинты, напиши тесты и убедись, что миграция прошла успешно». GPT-5.3 Codex изучит кодовую базу, спланирует миграцию, выполнит ее файл за файлом, запустит тесты, исправит ошибки и отчитается о результате — потенциально потратив на это несколько часов.

2. Интерактивное управление

Вы можете перенаправить GPT-5.3 Codex во время работы без потери контекста. Если вы видите, что она идет по неверному пути, скажите ей сменить направление. Диалог остается непрерывным.

3. Полный жизненный цикл ПО

OpenAI явно позиционирует GPT-5.3 Codex как нечто большее, чем просто инструмент для написания кода:

Отладка — читает логи ошибок, отслеживает первопричины, применяет исправления
Развертывание — управляет пайплайнами деплоя и конфигурациями
Мониторинг — следит за проблемами в работающих системах
PRD и документация — пишет требования к продукту и документацию
Исследование пользователей — синтезирует отзывы и результаты тестов
Тестирование — генерирует и запускает наборы тестов
Метрики — анализирует данные о производительности

4. Самозагрузка (Self-Bootstrapping)

GPT-5.3 Codex использовала свои ранние версии в процессе разработки для:

Отладки проблем в пайплайне обучения

Управления деплоем модели

Диагностики результатов оценки

Автономной итерации разработки игр на протяжении миллионов токенов

Это первый случай, когда ИИ-модель публично описывается как внесшая вклад в свое собственное создание.

GPT-5.3 Codex против Claude Code

Возможность	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
Кодинг в терминале	77.3%	Opus: 65.4%, Sonnet: 59.1%
Использование компьютера	64.7%	Sonnet: 72.5%, Opus: 72.7%
SWE-bench	~80%	Opus: 80.8%, Sonnet: 79.6%
Многочасовая автономность	Да	Ограничено
Интерактивное управление	Да	Да
Интеграция с IDE	Расширение Codex IDE	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
Офисные задачи	Ограничено	Sonnet: 1633 Elo
Устойчивость к промпт-инъекциям	Стандартная	Уровень Opus
Цена API	Уточняется	$3/$15 (Sonnet), $15/$75 (Opus)

Выбирайте GPT-5.3 Codex, если вам нужны:

Длительные автономные задачи по кодингу (многочасовые сессии)
Рабочие процессы с упором на терминал и сложные цепочки инструментов
Вы уже находитесь в экосистеме OpenAI/ChatGPT
Полная автоматизация жизненного цикла ПО

Выбирайте Claude Code, если вам нужны:

Использование компьютера / автоматизация браузера (72.5% против 64.7%)
Офисные задачи параллельно с кодингом
Критическая безопасность агента (лучшая устойчивость к промпт-инъекциям)
Предсказуемая стоимость API (известные цены $3/$15)

Доступность

GPT-5.3 Codex доступна для платных планов ChatGPT (Plus, Pro, Team, Enterprise) через:

Приложение Codex (веб) — полноценный интерфейс автономного агента
Codex CLI — агент для кодинга на базе терминала
Расширение для IDE — интегрировано в ваш редактор
API — появится через несколько недель (цена уточняется)

Доступ на бесплатном тарифе в данный момент отсутствует.

Что это значит для разработчиков

Гонка ИИ-агентов для кодинга началась по-настоящему

5 февраля 2026 года и OpenAI, и Anthropic выпустили свои флагманские модели в один день — GPT-5.3 Codex и Claude Opus 4.6. Посыл ясен: автономные агенты для программирования стали основным полем конкурентной борьбы.

Разные сильные стороны, разные процессы

GPT-5.3 Codex превосходит других в автономном кодинге через терминал в ходе длительных сессий. Claude лидирует в использовании компьютера, офисной интеграции и безопасности. Gemini 3.1 Pro остается впереди в области логического мышления и мультимодальности.

Для большинства разработчиков выбор будет зависеть от рабочего процесса:

Много работы в CLI/терминале → GPT-5.3 Codex

Автоматизация браузера + смешанные задачи → Claude Code

Научная работа / задачи на сложное мышление → Gemini 3.1 Pro

Модель — это только начало

Тренд всех трех лабораторий: одной модели недостаточно. Вам нужны инструменты развертывания, мониторинга, аналитики и роста вокруг нее. ИИ-агент пишет код, но для запуска продукта нужен весь стек технологий.

Создавайте и запускайте то, что задумали. Y Build берет на себя все после написания кода: деплой в один клик, Demo Cut для видеороликов о продукте, AI SEO и аналитика. Работает с любым ИИ-инструментом для кодинга. Начать бесплатно.

Источники: