Руководство по GPT-5.4: Модель автономных агентов от OpenAI (2026)

TL;DR

OpenAI выпустила GPT-5.4 5 марта 2026 года — первую модель общего назначения, которая превзошла человека в автономном использовании компьютера. Ключевые показатели:

Особенность	Детали
Верифицировано OSWorld	75.0% — превосходит базовый уровень человека (72.4%)
SWE-bench Pro	57.7% — сильное программирование, но уступает Claude Opus 4.6 (80.8%)
Окно контекста	До 1.05M токенов (272K стандартное, 1M расширенное)
Computer Use	Нативное, передовое — впервые встроено в общую модель
Эффективность токенов	Значительно меньше токенов, чем в GPT-5.2 для эквивалентных задач
Цена API	$2.50 вход / $15.00 выход за 1M токенов
Варианты	Standard, Thinking, Pro, Mini, Nano
Интерактивное мышление	Предварительный план + корректировка в процессе ответа

Что такое GPT-5.4?

GPT-5.4 — это флагманская большая языковая модель от OpenAI, выпущенная 5 марта 2026 года. Она сочетает в себе лучшие стороны GPT-5.3 Codex в программировании с прорывными возможностями автономного использования компьютера, окном контекста в 1 миллион токенов и новой системой интерактивного мышления.

Главная новость: GPT-5.4 — первая ИИ-модель общего назначения, превзошедшая человека при выполнении задач на настольном компьютере. Она набрала 75.0% в OSWorld-Verified — бенчмарке, где эксперты-люди набирают 72.4%. Ни одна другая модель ранее не пересекала этот порог так уверенно.

Это улучшение на 28 пунктов по сравнению с GPT-5.2 (47.3%) менее чем за четыре месяца. Модель может распознавать координаты экрана по скриншотам и напрямую отдавать команды мыши и клавиатуры, что позволяет ей автономно перемещаться по файлам, браузерам, терминалам и офисному ПО.

Ключевые особенности

Нативное использование компьютера (Computer Use)

В отличие от предыдущих моделей, которым требовались внешние инструменты для управления компьютером, GPT-5.4 имеет встроенные возможности Computer Use. В приложении Codex и через API модель может:

Навигация в среде рабочего стола с помощью скриншотов и действий клавиатуры/мыши
Работа в нескольких приложениях последовательно
Выполнение многоэтапных рабочих процессов (управление файлами, задачи в браузере, операции в терминале)
Работа с офисным ПО, таким как таблицы, презентации и документы

Окно контекста в 1 миллион токенов

GPT-5.4 поддерживает до 1.05M токенов контекста. Стандартное окно составляет 272K токенов; запросы, превышающие этот порог, обрабатываются по тарифу в 2 раза выше обычного входного потока. Такой огромный контекст критически важен для агентских рабочих процессов, где модели необходимо держать в памяти длинные истории использования инструментов, огромные кодовые базы или расширенные наборы документов.

Интерактивное мышление

GPT-5.4 Thinking представляет новую парадигму: модель предоставляет предварительный план своих рассуждений, и вы можете направлять её прямо в процессе ответа. Добавляйте инструкции, корректируйте курс или уточняйте направление, не начиная всё сначала. Это значительное улучшение удобства работы для сложных многоэтапных задач.

Улучшенная эффективность токенов

OpenAI сообщает, что GPT-5.4 использует значительно меньше токенов для решения задач по сравнению с GPT-5.2, наряду с сокращением фактических ошибок на 33%. Для промышленного внедрения это означает более низкие затраты на задачу даже без учёта конкурентных цен.

Бенчмарки

Где GPT-5.4 лидирует

Бенчмарк	Что тестирует	GPT-5.4	Лучший конкурент
OSWorld-Verified	Использование компьютера	75.0%	Claude Opus 4.6: 72.7%
Toolathlon	Использование инструментов/API	Лучший балл	—
GDPval	Интеллектуальный труд	83%	—

Полное сравнение моделей

Бенчмарк	GPT-5.4	Claude Opus 4.6	Gemini 3.1 Pro
OSWorld-Verified	75.0%	72.7%	N/A
SWE-bench Verified	~80%	80.8%	80.6%
SWE-bench Pro	57.7%	~45%	54.2%
ARC-AGI-2	52.9%	68.8%	77.1%
GDPval	83%	—	—

Что означают эти цифры

GPT-5.4 — это первая модель, которая достоверно справляется с использованием компьютера, программированием и интеллектуальным трудом на передовом уровне одновременно. Результат 75% в OSWorld является наиболее четкой вехой — это означает, что модель может выполнить три из четырех реальных задач на рабочем столе, которые кажутся сложными даже экспертам-людям.

Однако есть нюансы. В SWE-bench Verified (реальное программирование) Claude Opus 4.6 и Gemini 3.1 Pro значительно превосходят GPT-5.4 с результатами 80.8% и 80.6% соответственно. В абстрактном мышлении (ARC-AGI-2) GPT-5.4 отстает от Claude Opus 4.6 на 16 процентных пунктов, а от Gemini 3.1 Pro — более чем на 24 пункта.

Вывод: GPT-5.4 побеждает в автономном управлении компьютером и практическом использовании инструментов, но это не лучшая модель для абсолютно любой задачи.

Варианты моделей и цены

GPT-5.4 поставляется в пяти вариантах, каждый из которых ориентирован на разные сценарии использования и бюджеты:

Вариант	Вход (за 1M токенов)	Выход (за 1M токенов)	Лучше всего для
GPT-5.4 Standard	$2.50	$15.00	Общего назначения, Computer Use, агентские процессы
GPT-5.4 Thinking	$2.50	$15.00	Сложные рассуждения с интерактивным управлением планом
GPT-5.4 Pro	$30.00	$180.00	Юриспруденция, медицина, финансы — макс. точность
GPT-5.4 Mini	$0.75	$4.50	Большие объемы, чувствительность к задержкам
GPT-5.4 Nano	TBD	TBD	Edge и встроенные сценарии использования

Важные примечания по ценообразованию:

Промпты, превышающие 272K токенов, оплачиваются по двойному тарифу на вход ($5.00/MTok для Standard).
Региональные эндпоинты хранения данных облагаются надбавкой 10% для всех вариантов.
GPT-5.4 Mini доступен пользователям бесплатного уровня ChatGPT; Nano доступен только через API.

Сравнение стоимости: GPT-5.4 против Claude Opus 4.6

Для типичной ежедневной рабочей нагрузки:

GPT-5.4	Claude Opus 4.6
Средняя стоимость в день	~$5.50	~$10.00
Средняя стоимость в месяц	~$165	~$300
Соотношение затрат	1x	~1.8x

GPT-5.4 примерно на 50% дешевле, чем Claude Opus 4.6 при эквивалентной пропускной способности токенов. Вариант Mini еще больше усиливает это преимущество — он набирает 54.38% в SWE-bench Pro при стоимости примерно в 6 раз ниже.

GPT-5.4 против Claude Opus 4.6: что и когда использовать?

Это вопрос, который большинство команд задают в апреле 2026 года. Ответ зависит от вашей нагрузки.

Выбирайте GPT-5.4, если вам нужны:

Автоматизация рабочего стола и использование компьютера — 75.0% в OSWorld против 72.7% у Opus 4.6
Вызов инструментов и оркестрация API — лучшая точность за меньшее количество шагов в Toolathlon
Экономическая эффективность — стоимость за токен примерно вдвое ниже, чем у Opus 4.6
Эффективное рассуждение — меньше токенов на задачу означает более низкие счета
Быстрое прототипирование — быстрая итерация с меньшими накладными расходами

Выбирайте Claude Opus 4.6, если вам нужны:

Сложный рефакторинг многофайлового кода — лидирует в SWE-bench Verified с 80.8%
Согласованность длинного контекста — лучше сохраняет качество на очень больших контекстах
Абстрактное и нестандартное мышление — преимущество в 16 пунктов в ARC-AGI-2
Агентский поиск и глубокая архитектура кода — отлично справляется с задачами, требующими глубокого понимания
Качество и нюансы письма — занимает 1-е место по удовлетворенности пользователей в Chatbot Arena

Итоговое прямое сравнение

Измерение	Победитель	Разрыв
Использование компьютера (OSWorld)	GPT-5.4	75.0% против 72.7%
Программирование (SWE-bench Verified)	Claude Opus 4.6	80.8% против ~80%
Абстрактное мышление (ARC-AGI-2)	Claude Opus 4.6	68.8% против 52.9%
Вызов инструментов (Toolathlon)	GPT-5.4	Меньше шагов, выше точность
Интеллектуальный труд (GDPval)	GPT-5.4	83%
Цена	GPT-5.4	~50% дешевле
Удовлетворенность пользователей	Claude Opus 4.6	№1 в Chatbot Arena

Как получить доступ к GPT-5.4

GPT-5.4 доступен через:

ChatGPT — GPT-5.4 Thinking является моделью по умолчанию для пользователей Plus, Pro и Team. Mini доступна для пользователей бесплатного уровня.
OpenAI API — Все пять вариантов доступны через стандартные эндпоинты completions и chat.
Приложение Codex — Полные возможности использования компьютера с десктопным агентом.
OpenRouter — Сторонний доступ по конкурентным ценам.

Чтобы использовать функции Computer Use через API, необходимо включить параметр инструмента computer_use и предоставить скриншоты в качестве входных изображений. Модель возвращает структурированные действия (клик, ввод текста, прокрутка), которые ваше приложение транслирует в системные события.

FAQ

Лучше ли GPT-5.4, чем Claude Opus 4.6?

Это зависит от задачи. GPT-5.4 выигрывает в использовании компьютера, вызове инструментов и стоимости. Claude Opus 4.6 выигрывает в сложном программировании, абстрактном мышлении и качестве текстов. Для большинства команд выбор сводится к тому, является ли основной нагрузкой автоматизация рабочего стола (GPT-5.4) или глубокая программная инженерия (Opus 4.6).

Сколько стоит GPT-5.4?

Стандартная модель стоит $2.50 за миллион входных токенов и $15.00 за миллион выходных токенов. Вариант Pro стоит $30/$180 за MTok. Mini — $0.75/$4.50 за MTok. Промпты свыше 272K токенов оплачиваются по двойному тарифу на вход.

Действительно ли GPT-5.4 может использовать компьютер лучше человека?

В бенчмарке OSWorld-Verified — да: 75.0% против базового уровня эксперта-человека в 72.4%. Однако бенчмарки измеряют конкретные категории задач. Реальное использование компьютера включает в себя суждения, контекст и адаптивность, которые бенчмарки не фиксируют полностью. Эту модель лучше рассматривать как «сверхчеловеческую» в структурированных десктопных задачах, а не как полную замену человеку.

Какое окно контекста у GPT-5.4?

До 1.05 миллиона токенов. Стандартный уровень — 272K токенов. Расширение за пределы 272K удваивает стоимость входных токенов. Полный контекст 1M критически важен для агентских рабочих процессов, которые накапливают длинные истории взаимодействий.

Стоит ли переходить с GPT-5.3 Codex?

Если ваша работа связана с использованием компьютера или оркестрацией множества инструментов — да. Прыжок с 64.7% до 75.0% в OSWorld значителен. Для чисто кодинговых задач улучшение по сравнению с GPT-5.3 Codex носит более инкрементальный характер — показатель SWE-bench Pro вырос с 56.8% до 57.7%. Оценивайте, исходя из вашего конкретного случая.

Какие варианты модели доступны?

Пять: Standard, Thinking, Pro, Mini и Nano. Standard и Thinking имеют одинаковую цену и являются основными моделями для большинства задач. Pro — это премиальный уровень для максимальной точности. Mini ориентирован на чувствительные к затратам внедрения. Nano разработан для edge-устройств и встроенных приложений.

Итог

GPT-5.4 знаменует собой подлинную точку перегиба для автономных ИИ-агентов. Это первая модель общего назначения, превзошедшая экспертов-людей в использовании настольного компьютера, при этом она на 50% дешевле своего основного конкурента. Линейка из пяти вариантов означает, что найдется GPT-5.4 для любого бюджета и требований к задержке.

Тем не менее, она не лучшая во всем. Claude Opus 4.6 остается более сильным выбором для сложной программной инженерии и абстрактного мышления. Gemini 3.1 Pro по-прежнему лидирует в нескольких бенчмарках на рассуждение. Правильный ответ для большинства команд — не «какая модель лучшая», а «какая модель лучше всего подходит для этой конкретной задачи».

Если вы создаете продукты на базе ИИ и хотите использовать такие модели, как GPT-5.4 и Claude Opus 4.6, не увязая в инфраструктуре, Y Build поможет вам запуститься быстрее. Мы предоставляем инструменты и платформу для создания, развертывания и итерации ИИ-приложений, чтобы вы могли сосредоточиться на продукте, а не на технической обвязке.

Источники: OpenAI GPT-5.4 Announcement, OpenAI API Pricing, NxCode GPT-5.4 Complete Guide, NxCode GPT-5.4 vs Claude Opus 4.6, DataCamp GPT-5.4 Overview, Artificial Analysis GPT-5.4, MindStudio Benchmark Comparison, Nerd Level Tech: GPT-5.4 Beats Humans