GPT-5.3 Codex: Автономный агент для программирования от OpenAI
OpenAI выпустила GPT-5.3 Codex 5 февраля 2026 года — первую ИИ-модель, которая помогла создать саму себя. 77.3% в Terminal-Bench, 56.8% в SWE-Bench Pro, автономные многочасовые сессии кодинга. Полный разбор функций, бенчмарков и сравнение с Claude Code.
TL;DR
OpenAI выпустила GPT-5.3 Codex 5 февраля 2026 года — в тот же день, когда Anthropic представила Opus 4.6. Ключевые показатели:
- Terminal-Bench 2.0: 77.3% — лидирует среди всех моделей в агентном написании кода через терминал
- SWE-Bench Pro: 56.8% — лучший результат по четырем языкам программирования
- OSWorld: 64.7% — уверенное использование компьютера (но уступает 72.5% у Sonnet 4.6)
- На 25% быстрее, чем GPT-5.2 Codex
- Интерактивность во время работы — направляйте агента в процессе выполнения задачи без потери контекста
- Первая самозагружающаяся (self-bootstrapping) модель — GPT-5.3 Codex помогла отладить собственное обучение
- Доступно в приложении Codex, CLI и расширении для IDE в рамках платных планов ChatGPT
- Цены на API еще не опубликованы
Что анонсировала OpenAI
GPT-5.3 Codex — это не просто улучшенная модель для кодинга. Это первая модель OpenAI, спроектированная как агент полного жизненного цикла разработки ПО: отладка, развертывание, мониторинг, написание PRD, редактирование текстов, запуск тестов и многое другое.
Главная особенность: автономные длительные задачи. Дайте GPT-5.3 Codex сложное задание, и она будет работать над ним часами — проводя исследования, используя инструменты, выполняя код и адаптируя свой план на ходу. Вы можете корректировать ее действия в процессе, не теряя контекста, как при работе с коллегой.
Самое резонансное заявление OpenAI: GPT-5.3 Codex — это «первая модель, сыгравшая ключевую роль в своем собственном создании». Команда Codex использовала ранние версии для отладки пайплайна обучения, управления деплоем и диагностики результатов оценки.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Бенчмарки
Где лидирует GPT-5.3 Codex
| Бенчмарк | Что тестирует | GPT-5.3 Codex | Лучший конкурент |
|---|---|---|---|
| Terminal-Bench 2.0 | Агентный кодинг в терминале | 77.3% | Gemini 3.1 Pro: 68.5% |
| SWE-Bench Pro | Мультиязычный кодинг | 56.8% | Gemini 3.1 Pro: 54.2% |
| HumanEval | Генерация кода | 93% | — |
| GPQA | Научное мышление | 81% | Gemini 3.1 Pro: 94.3% |
Полное сравнение
| Бенчмарк | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 77.3% | 65.4% | 59.1% | 68.5% |
| SWE-Bench Pro | 56.8% | — | — | 54.2% |
| OSWorld | 64.7% | 72.7% | 72.5% | N/A |
| SWE-bench Verified | ~80% | 80.8% | 79.6% | 80.6% |
| ARC-AGI-2 | 52.9% | 68.8% | 58.3% | 77.1% |
Что значат эти цифры
GPT-5.3 Codex доминирует в агентном кодинге в терминале — типе работы, где ИИ-агенту нужно ориентироваться в кодовой базе, запускать команды, интерпретировать вывод, исправлять ошибки и итерировать. Результат 77.3% в Terminal-Bench почти на 9 пунктов опережает ближайшего преследователя (Gemini 3.1 Pro с 68.5%) и на 12 пунктов — Opus 4.6 (65.4%).
Однако в использовании компьютера (OSWorld) она заметно отстает от Claude — 64.7% против 72.5% у Sonnet 4.6. А в логическом мышлении (ARC-AGI-2) она сильно уступает Gemini 3.1 Pro (77.1%) и Opus 4.6 (68.8%).
Основные возможности
1. Автономные многочасовые сессии
Предыдущие модели для кодинга работали короткими рывками: вы даете промпт, она отвечает, вы даете следующий. GPT-5.3 Codex работает непрерывно над сложными задачами, самостоятельно управляя рабочим процессом на протяжении многих шагов.
Пример рабочего процесса: «Перенеси нашу систему аутентификации с JWT на OAuth 2.0, обнови все задействованные эндпоинты, напиши тесты и убедись, что миграция прошла успешно». GPT-5.3 Codex изучит кодовую базу, спланирует миграцию, выполнит ее файл за файлом, запустит тесты, исправит ошибки и отчитается о результате — потенциально потратив на это несколько часов.
2. Интерактивное управление
Вы можете перенаправить GPT-5.3 Codex во время работы без потери контекста. Если вы видите, что она идет по неверному пути, скажите ей сменить направление. Диалог остается непрерывным.
3. Полный жизненный цикл ПО
OpenAI явно позиционирует GPT-5.3 Codex как нечто большее, чем просто инструмент для написания кода:
- Отладка — читает логи ошибок, отслеживает первопричины, применяет исправления
- Развертывание — управляет пайплайнами деплоя и конфигурациями
- Мониторинг — следит за проблемами в работающих системах
- PRD и документация — пишет требования к продукту и документацию
- Исследование пользователей — синтезирует отзывы и результаты тестов
- Тестирование — генерирует и запускает наборы тестов
- Метрики — анализирует данные о производительности
4. Самозагрузка (Self-Bootstrapping)
GPT-5.3 Codex использовала свои ранние версии в процессе разработки для:
- Отладки проблем в пайплайне обучения
- Управления деплоем модели
- Диагностики результатов оценки
- Автономной итерации разработки игр на протяжении миллионов токенов
Это первый случай, когда ИИ-модель публично описывается как внесшая вклад в свое собственное создание.
GPT-5.3 Codex против Claude Code
| Возможность | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| Кодинг в терминале | 77.3% | Opus: 65.4%, Sonnet: 59.1% |
| Использование компьютера | 64.7% | Sonnet: 72.5%, Opus: 72.7% |
| SWE-bench | ~80% | Opus: 80.8%, Sonnet: 79.6% |
| Многочасовая автономность | Да | Ограничено |
| Интерактивное управление | Да | Да |
| Интеграция с IDE | Расширение Codex IDE | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| Офисные задачи | Ограничено | Sonnet: 1633 Elo |
| Устойчивость к промпт-инъекциям | Стандартная | Уровень Opus |
| Цена API | Уточняется | $3/$15 (Sonnet), $15/$75 (Opus) |
- Длительные автономные задачи по кодингу (многочасовые сессии)
- Рабочие процессы с упором на терминал и сложные цепочки инструментов
- Вы уже находитесь в экосистеме OpenAI/ChatGPT
- Полная автоматизация жизненного цикла ПО
- Использование компьютера / автоматизация браузера (72.5% против 64.7%)
- Офисные задачи параллельно с кодингом
- Критическая безопасность агента (лучшая устойчивость к промпт-инъекциям)
- Предсказуемая стоимость API (известные цены $3/$15)
Доступность
GPT-5.3 Codex доступна для платных планов ChatGPT (Plus, Pro, Team, Enterprise) через:
- Приложение Codex (веб) — полноценный интерфейс автономного агента
- Codex CLI — агент для кодинга на базе терминала
- Расширение для IDE — интегрировано в ваш редактор
- API — появится через несколько недель (цена уточняется)
Что это значит для разработчиков
Гонка ИИ-агентов для кодинга началась по-настоящему
5 февраля 2026 года и OpenAI, и Anthropic выпустили свои флагманские модели в один день — GPT-5.3 Codex и Claude Opus 4.6. Посыл ясен: автономные агенты для программирования стали основным полем конкурентной борьбы.
Разные сильные стороны, разные процессы
GPT-5.3 Codex превосходит других в автономном кодинге через терминал в ходе длительных сессий. Claude лидирует в использовании компьютера, офисной интеграции и безопасности. Gemini 3.1 Pro остается впереди в области логического мышления и мультимодальности.
Для большинства разработчиков выбор будет зависеть от рабочего процесса:
- Много работы в CLI/терминале → GPT-5.3 Codex
- Автоматизация браузера + смешанные задачи → Claude Code
- Научная работа / задачи на сложное мышление → Gemini 3.1 Pro
Модель — это только начало
Тренд всех трех лабораторий: одной модели недостаточно. Вам нужны инструменты развертывания, мониторинга, аналитики и роста вокруг нее. ИИ-агент пишет код, но для запуска продукта нужен весь стек технологий.
Создавайте и запускайте то, что задумали. Y Build берет на себя все после написания кода: деплой в один клик, Demo Cut для видеороликов о продукте, AI SEO и аналитика. Работает с любым ИИ-инструментом для кодинга. Начать бесплатно.
Источники:
- OpenAI: Introducing GPT-5.3-Codex
- OpenAI: GPT-5.3-Codex System Card
- Fortune: OpenAI GPT-5.3 Codex raises cybersecurity risks
- MarkTechPost: GPT-5.3-Codex agentic coding model
- DataCamp: GPT-5.3 Codex from coding to general work agent
- OfficeChai: Gemini 3.1 Pro Benchmarks (GPT-5.3 comparison)
- LLM Stats: GPT-5.3 Codex pricing and benchmarks
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.