Руководство по GPT-5.4: Модель автономных агентов от OpenAI (2026)
GPT-5.4 набирает 75% в тесте OSWorld, обходя людей в использовании компьютера. Контекст 1M, $2.50/MTok, 5 вариантов модели. Полные бенчмарки, цены и руководство по сравнению.
TL;DR
OpenAI выпустила GPT-5.4 5 марта 2026 года — первую модель общего назначения, которая превзошла человека в автономном использовании компьютера. Ключевые показатели:
| Особенность | Детали |
|---|---|
| Верифицировано OSWorld | 75.0% — превосходит базовый уровень человека (72.4%) |
| SWE-bench Pro | 57.7% — сильное программирование, но уступает Claude Opus 4.6 (80.8%) |
| Окно контекста | До 1.05M токенов (272K стандартное, 1M расширенное) |
| Computer Use | Нативное, передовое — впервые встроено в общую модель |
| Эффективность токенов | Значительно меньше токенов, чем в GPT-5.2 для эквивалентных задач |
| Цена API | $2.50 вход / $15.00 выход за 1M токенов |
| Варианты | Standard, Thinking, Pro, Mini, Nano |
| Интерактивное мышление | Предварительный план + корректировка в процессе ответа |
Что такое GPT-5.4?
GPT-5.4 — это флагманская большая языковая модель от OpenAI, выпущенная 5 марта 2026 года. Она сочетает в себе лучшие стороны GPT-5.3 Codex в программировании с прорывными возможностями автономного использования компьютера, окном контекста в 1 миллион токенов и новой системой интерактивного мышления.
Главная новость: GPT-5.4 — первая ИИ-модель общего назначения, превзошедшая человека при выполнении задач на настольном компьютере. Она набрала 75.0% в OSWorld-Verified — бенчмарке, где эксперты-люди набирают 72.4%. Ни одна другая модель ранее не пересекала этот порог так уверенно.
Это улучшение на 28 пунктов по сравнению с GPT-5.2 (47.3%) менее чем за четыре месяца. Модель может распознавать координаты экрана по скриншотам и напрямую отдавать команды мыши и клавиатуры, что позволяет ей автономно перемещаться по файлам, браузерам, терминалам и офисному ПО.
Ключевые особенности
Нативное использование компьютера (Computer Use)
В отличие от предыдущих моделей, которым требовались внешние инструменты для управления компьютером, GPT-5.4 имеет встроенные возможности Computer Use. В приложении Codex и через API модель может:
- Навигация в среде рабочего стола с помощью скриншотов и действий клавиатуры/мыши
- Работа в нескольких приложениях последовательно
- Выполнение многоэтапных рабочих процессов (управление файлами, задачи в браузере, операции в терминале)
- Работа с офисным ПО, таким как таблицы, презентации и документы
Окно контекста в 1 миллион токенов
GPT-5.4 поддерживает до 1.05M токенов контекста. Стандартное окно составляет 272K токенов; запросы, превышающие этот порог, обрабатываются по тарифу в 2 раза выше обычного входного потока. Такой огромный контекст критически важен для агентских рабочих процессов, где модели необходимо держать в памяти длинные истории использования инструментов, огромные кодовые базы или расширенные наборы документов.
Интерактивное мышление
GPT-5.4 Thinking представляет новую парадигму: модель предоставляет предварительный план своих рассуждений, и вы можете направлять её прямо в процессе ответа. Добавляйте инструкции, корректируйте курс или уточняйте направление, не начиная всё сначала. Это значительное улучшение удобства работы для сложных многоэтапных задач.
Улучшенная эффективность токенов
OpenAI сообщает, что GPT-5.4 использует значительно меньше токенов для решения задач по сравнению с GPT-5.2, наряду с сокращением фактических ошибок на 33%. Для промышленного внедрения это означает более низкие затраты на задачу даже без учёта конкурентных цен.
Бенчмарки
Где GPT-5.4 лидирует
| Бенчмарк | Что тестирует | GPT-5.4 | Лучший конкурент |
|---|---|---|---|
| OSWorld-Verified | Использование компьютера | 75.0% | Claude Opus 4.6: 72.7% |
| Toolathlon | Использование инструментов/API | Лучший балл | — |
| GDPval | Интеллектуальный труд | 83% | — |
Полное сравнение моделей
| Бенчмарк | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.7% | N/A |
| SWE-bench Verified | ~80% | 80.8% | 80.6% |
| SWE-bench Pro | 57.7% | ~45% | 54.2% |
| ARC-AGI-2 | 52.9% | 68.8% | 77.1% |
| GDPval | 83% | — | — |
Что означают эти цифры
GPT-5.4 — это первая модель, которая достоверно справляется с использованием компьютера, программированием и интеллектуальным трудом на передовом уровне одновременно. Результат 75% в OSWorld является наиболее четкой вехой — это означает, что модель может выполнить три из четырех реальных задач на рабочем столе, которые кажутся сложными даже экспертам-людям.
Однако есть нюансы. В SWE-bench Verified (реальное программирование) Claude Opus 4.6 и Gemini 3.1 Pro значительно превосходят GPT-5.4 с результатами 80.8% и 80.6% соответственно. В абстрактном мышлении (ARC-AGI-2) GPT-5.4 отстает от Claude Opus 4.6 на 16 процентных пунктов, а от Gemini 3.1 Pro — более чем на 24 пункта.
Вывод: GPT-5.4 побеждает в автономном управлении компьютером и практическом использовании инструментов, но это не лучшая модель для абсолютно любой задачи.
Варианты моделей и цены
GPT-5.4 поставляется в пяти вариантах, каждый из которых ориентирован на разные сценарии использования и бюджеты:
| Вариант | Вход (за 1M токенов) | Выход (за 1M токенов) | Лучше всего для |
|---|---|---|---|
| GPT-5.4 Standard | $2.50 | $15.00 | Общего назначения, Computer Use, агентские процессы |
| GPT-5.4 Thinking | $2.50 | $15.00 | Сложные рассуждения с интерактивным управлением планом |
| GPT-5.4 Pro | $30.00 | $180.00 | Юриспруденция, медицина, финансы — макс. точность |
| GPT-5.4 Mini | $0.75 | $4.50 | Большие объемы, чувствительность к задержкам |
| GPT-5.4 Nano | TBD | TBD | Edge и встроенные сценарии использования |
- Промпты, превышающие 272K токенов, оплачиваются по двойному тарифу на вход ($5.00/MTok для Standard).
- Региональные эндпоинты хранения данных облагаются надбавкой 10% для всех вариантов.
- GPT-5.4 Mini доступен пользователям бесплатного уровня ChatGPT; Nano доступен только через API.
Сравнение стоимости: GPT-5.4 против Claude Opus 4.6
Для типичной ежедневной рабочей нагрузки:
| GPT-5.4 | Claude Opus 4.6 | |
|---|---|---|
| Средняя стоимость в день | ~$5.50 | ~$10.00 |
| Средняя стоимость в месяц | ~$165 | ~$300 |
| Соотношение затрат | 1x | ~1.8x |
GPT-5.4 примерно на 50% дешевле, чем Claude Opus 4.6 при эквивалентной пропускной способности токенов. Вариант Mini еще больше усиливает это преимущество — он набирает 54.38% в SWE-bench Pro при стоимости примерно в 6 раз ниже.
GPT-5.4 против Claude Opus 4.6: что и когда использовать?
Это вопрос, который большинство команд задают в апреле 2026 года. Ответ зависит от вашей нагрузки.
Выбирайте GPT-5.4, если вам нужны:
- Автоматизация рабочего стола и использование компьютера — 75.0% в OSWorld против 72.7% у Opus 4.6
- Вызов инструментов и оркестрация API — лучшая точность за меньшее количество шагов в Toolathlon
- Экономическая эффективность — стоимость за токен примерно вдвое ниже, чем у Opus 4.6
- Эффективное рассуждение — меньше токенов на задачу означает более низкие счета
- Быстрое прототипирование — быстрая итерация с меньшими накладными расходами
Выбирайте Claude Opus 4.6, если вам нужны:
- Сложный рефакторинг многофайлового кода — лидирует в SWE-bench Verified с 80.8%
- Согласованность длинного контекста — лучше сохраняет качество на очень больших контекстах
- Абстрактное и нестандартное мышление — преимущество в 16 пунктов в ARC-AGI-2
- Агентский поиск и глубокая архитектура кода — отлично справляется с задачами, требующими глубокого понимания
- Качество и нюансы письма — занимает 1-е место по удовлетворенности пользователей в Chatbot Arena
Итоговое прямое сравнение
| Измерение | Победитель | Разрыв |
|---|---|---|
| Использование компьютера (OSWorld) | GPT-5.4 | 75.0% против 72.7% |
| Программирование (SWE-bench Verified) | Claude Opus 4.6 | 80.8% против ~80% |
| Абстрактное мышление (ARC-AGI-2) | Claude Opus 4.6 | 68.8% против 52.9% |
| Вызов инструментов (Toolathlon) | GPT-5.4 | Меньше шагов, выше точность |
| Интеллектуальный труд (GDPval) | GPT-5.4 | 83% |
| Цена | GPT-5.4 | ~50% дешевле |
| Удовлетворенность пользователей | Claude Opus 4.6 | №1 в Chatbot Arena |
Как получить доступ к GPT-5.4
GPT-5.4 доступен через:
- ChatGPT — GPT-5.4 Thinking является моделью по умолчанию для пользователей Plus, Pro и Team. Mini доступна для пользователей бесплатного уровня.
- OpenAI API — Все пять вариантов доступны через стандартные эндпоинты completions и chat.
- Приложение Codex — Полные возможности использования компьютера с десктопным агентом.
- OpenRouter — Сторонний доступ по конкурентным ценам.
computer_use и предоставить скриншоты в качестве входных изображений. Модель возвращает структурированные действия (клик, ввод текста, прокрутка), которые ваше приложение транслирует в системные события.
FAQ
Лучше ли GPT-5.4, чем Claude Opus 4.6?
Это зависит от задачи. GPT-5.4 выигрывает в использовании компьютера, вызове инструментов и стоимости. Claude Opus 4.6 выигрывает в сложном программировании, абстрактном мышлении и качестве текстов. Для большинства команд выбор сводится к тому, является ли основной нагрузкой автоматизация рабочего стола (GPT-5.4) или глубокая программная инженерия (Opus 4.6).
Сколько стоит GPT-5.4?
Стандартная модель стоит $2.50 за миллион входных токенов и $15.00 за миллион выходных токенов. Вариант Pro стоит $30/$180 за MTok. Mini — $0.75/$4.50 за MTok. Промпты свыше 272K токенов оплачиваются по двойному тарифу на вход.
Действительно ли GPT-5.4 может использовать компьютер лучше человека?
В бенчмарке OSWorld-Verified — да: 75.0% против базового уровня эксперта-человека в 72.4%. Однако бенчмарки измеряют конкретные категории задач. Реальное использование компьютера включает в себя суждения, контекст и адаптивность, которые бенчмарки не фиксируют полностью. Эту модель лучше рассматривать как «сверхчеловеческую» в структурированных десктопных задачах, а не как полную замену человеку.
Какое окно контекста у GPT-5.4?
До 1.05 миллиона токенов. Стандартный уровень — 272K токенов. Расширение за пределы 272K удваивает стоимость входных токенов. Полный контекст 1M критически важен для агентских рабочих процессов, которые накапливают длинные истории взаимодействий.
Стоит ли переходить с GPT-5.3 Codex?
Если ваша работа связана с использованием компьютера или оркестрацией множества инструментов — да. Прыжок с 64.7% до 75.0% в OSWorld значителен. Для чисто кодинговых задач улучшение по сравнению с GPT-5.3 Codex носит более инкрементальный характер — показатель SWE-bench Pro вырос с 56.8% до 57.7%. Оценивайте, исходя из вашего конкретного случая.
Какие варианты модели доступны?
Пять: Standard, Thinking, Pro, Mini и Nano. Standard и Thinking имеют одинаковую цену и являются основными моделями для большинства задач. Pro — это премиальный уровень для максимальной точности. Mini ориентирован на чувствительные к затратам внедрения. Nano разработан для edge-устройств и встроенных приложений.
Итог
GPT-5.4 знаменует собой подлинную точку перегиба для автономных ИИ-агентов. Это первая модель общего назначения, превзошедшая экспертов-людей в использовании настольного компьютера, при этом она на 50% дешевле своего основного конкурента. Линейка из пяти вариантов означает, что найдется GPT-5.4 для любого бюджета и требований к задержке.
Тем не менее, она не лучшая во всем. Claude Opus 4.6 остается более сильным выбором для сложной программной инженерии и абстрактного мышления. Gemini 3.1 Pro по-прежнему лидирует в нескольких бенчмарках на рассуждение. Правильный ответ для большинства команд — не «какая модель лучшая», а «какая модель лучше всего подходит для этой конкретной задачи».
Если вы создаете продукты на базе ИИ и хотите использовать такие модели, как GPT-5.4 и Claude Opus 4.6, не увязая в инфраструктуре, Y Build поможет вам запуститься быстрее. Мы предоставляем инструменты и платформу для создания, развертывания и итерации ИИ-приложений, чтобы вы могли сосредоточиться на продукте, а не на технической обвязке.
Источники: OpenAI GPT-5.4 Announcement, OpenAI API Pricing, NxCode GPT-5.4 Complete Guide, NxCode GPT-5.4 vs Claude Opus 4.6, DataCamp GPT-5.4 Overview, Artificial Analysis GPT-5.4, MindStudio Benchmark Comparison, Nerd Level Tech: GPT-5.4 Beats Humans