Guia GPT-5.4: O Modelo de Agente Autônomo da OpenAI (2026)
O GPT-5.4 atinge 75% no OSWorld, superando humanos no uso de computadores. Contexto de 1M, $2,50/MTok, 5 variantes de modelo. Benchmarks completos, preços e guia comparativo.
TL;DR
A OpenAI lançou o GPT-5.4 em 5 de março de 2026 — o primeiro modelo de propósito geral a superar humanos no uso autônomo de computadores. Estatísticas principais:
| Recurso | Detalhe |
|---|---|
| OSWorld-Verified | 75,0% — supera a linha de base humana (72,4%) |
| SWE-bench Pro | 57,7% — codificação forte, mas atrás do Claude Opus 4.6 (80,8%) |
| Janela de Contexto | Até 1,05M de tokens (272K padrão, 1M estendido) |
| Uso de Computador | Nativo, estado da arte — o primeiro integrado em um modelo geral |
| Eficiência de Tokens | Significativamente menos tokens que o GPT-5.2 para tarefas equivalentes |
| Preço da API | $2,50 entrada / $15,00 saída por 1M de tokens |
| Variantes | Standard, Thinking, Pro, Mini, Nano |
| Pensamento Interativo | Plano antecipado + direcionamento durante a resposta |
O Que É o GPT-5.4?
O GPT-5.4 é o modelo de linguagem de grande porte topo de linha da OpenAI, lançado em 5 de março de 2026. Ele combina o melhor das forças de codificação do GPT-5.3 Codex com capacidades revolucionárias de uso autônomo de computador, uma janela de contexto de 1 milhão de tokens e um novo sistema de pensamento interativo.
A manchete: O GPT-5.4 é o primeiro modelo de IA de propósito geral a exceder o desempenho humano em tarefas de computador desktop. Ele pontua 75,0% no OSWorld-Verified — um benchmark onde testadores especialistas humanos pontuam 72,4%. Nenhum outro modelo havia cruzado esse limiar de forma clara antes.
Isso representa uma melhoria de 28 pontos em relação ao GPT-5.2 (47,3%) em menos de quatro meses. O modelo pode analisar coordenadas de tela a partir de capturas de tela e emitir comandos de mouse e teclado diretamente, permitindo que ele navegue por arquivos, navegadores, terminais e softwares de produtividade de forma autônoma.
Principais Recursos
Uso Nativo de Computador
Ao contrário de modelos anteriores que precisavam de ferramentas externas para controle de computador, o GPT-5.4 possui capacidades de uso de computador integradas. No aplicativo Codex e via API, o modelo pode:
- Navegar em ambientes de desktop através de capturas de tela e ações de teclado/mouse
- Operar em múltiplos aplicativos em sequência
- Concluir fluxos de trabalho de várias etapas (gerenciamento de arquivos, tarefas de navegador, operações de terminal)
- Lidar com softwares de produtividade como planilhas, apresentações e documentos
Janela de Contexto de 1 Milhão de Tokens
O GPT-5.4 suporta até 1,05M de tokens de contexto. A janela padrão é de 272K tokens; solicitações que excedem esse limite são processadas a 2x a taxa de entrada normal. Esse contexto massivo é crítico para fluxos de trabalho agênticos, onde o modelo precisa manter longos históricos de uso de ferramentas, grandes bases de código ou conjuntos extensos de documentos na memória.
Pensamento Interativo
O GPT-5.4 Thinking introduz um novo paradigma: o modelo fornece um plano antecipado do seu raciocínio, e você pode direcioná-lo durante a resposta. Adicione instruções, corrija o curso ou refine a direção sem precisar recomeçar. Esta é uma melhoria significativa na qualidade de vida para tarefas complexas de várias etapas.
Melhoria na Eficiência de Tokens
A OpenAI relata que o GPT-5.4 utiliza significativamente menos tokens para resolver problemas em comparação com o GPT-5.2, juntamente com uma redução de 33% em erros factuais. Para implementações em produção, isso significa custos menores por tarefa, mesmo antes de considerar o preço competitivo.
Benchmarks
Onde o GPT-5.4 Lidera
| Benchmark | O Que Testa | GPT-5.4 | Melhor Competidor |
|---|---|---|---|
| OSWorld-Verified | Uso de computador desktop | 75,0% | Claude Opus 4.6: 72,7% |
| Toolathlon | Uso de ferramentas/API em várias etapas | Pontuação máxima | — |
| GDPval | Trabalho de conhecimento | 83% | — |
Comparação Completa de Modelos
| Benchmark | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| OSWorld-Verified | 75,0% | 72,7% | N/A |
| SWE-bench Verified | ~80% | 80,8% | 80,6% |
| SWE-bench Pro | 57,7% | ~45% | 54.2% |
| ARC-AGI-2 | 52,9% | 68,8% | 77.1% |
| GDPval | 83% | — | — |
O Que os Números Significam
O GPT-5.4 é o primeiro modelo que lida de forma confiável com uso de computador, codificação e trabalho de conhecimento no nível de fronteira simultaneamente. A pontuação de 75% no OSWorld é o marco mais claro — significa que o modelo pode completar três de cada quatro tarefas reais de desktop que até humanos especialistas consideram desafiadoras.
No entanto, o cenário é matizado. No SWE-bench Verified (codificação do mundo real), tanto o Claude Opus 4.6 quanto o Gemini 3.1 Pro superam significativamente o GPT-5.4 com 80,8% e 80,6%, respectivamente. No raciocínio abstrato (ARC-AGI-2), o GPT-5.4 fica atrás do Claude Opus 4.6 por 16 pontos percentuais e do Gemini 3.1 Pro por mais de 24 pontos.
A conclusão: O GPT-5.4 vence no controle autônomo de computador e no uso prático de ferramentas, mas não é o melhor modelo para todas as tarefas.
Variantes do Modelo e Preços
O GPT-5.4 é lançado em cinco variantes, cada uma visando diferentes casos de uso e orçamentos:
| Variante | Entrada (por 1M tokens) | Saída (por 1M tokens) | Ideal Para |
|---|---|---|---|
| GPT-5.4 Standard | $2,50 | $15,00 | Propósito geral, uso de computador, fluxos agênticos |
| GPT-5.4 Thinking | $2,50 | $15,00 | Raciocínio complexo com direcionamento interativo de plano |
| GPT-5.4 Pro | $30,00 | $180,00 | Jurídico, médico, financeiro — precisão máxima |
| GPT-5.4 Mini | $0,75 | $4,50 | Alto volume, cargas de trabalho sensíveis à latência |
| GPT-5.4 Nano | A definir | A definir | Casos de uso em edge e embarcados |
- Prompts que excedem 272K tokens são cobrados a 2x a taxa de entrada padrão ($5,00/MTok para o Standard).
- Endpoints regionais de residência de dados possuem uma sobretaxa de 10% em todas as variantes.
- O GPT-5.4 Mini está disponível para usuários do ChatGPT gratuito; o Nano é exclusivo para API.
Comparação de Custos: GPT-5.4 vs Claude Opus 4.6
Para uma carga de trabalho diária típica:
| GPT-5.4 | Claude Opus 4.6 | |
|---|---|---|
| Custo diário médio | ~$5,50 | ~$10,00 |
| Custo mensal médio | ~$165 | ~$300 |
| Razão de custo | 1x | ~1,8x |
O GPT-5.4 é aproximadamente 50% mais barato que o Claude Opus 4.6 para o mesmo volume de tokens. A variante Mini leva isso ainda mais longe — pontuando 54,38% no SWE-bench Pro com um custo cerca de 6x menor.
GPT-5.4 vs Claude Opus 4.6: Quando Usar Qual?
Esta é a pergunta que a maioria das equipes está fazendo em abril de 2026. A resposta depende da sua carga de trabalho.
Escolha o GPT-5.4 Se Você Precisar de:
- Automação de desktop e uso de computador — 75,0% no OSWorld vs 72,7% do Opus 4.6
- Chamada de ferramentas e orquestração de API — melhor precisão em menos etapas no Toolathlon
- Eficiência de custos — cerca de metade do custo por token do Opus 4.6
- Raciocínio eficiente em tokens — menos tokens por problema significam faturas menores
- Prototipagem rápida — iteração rápida com menor custo fixo
Escolha o Claude Opus 4.6 Se Você Precisar de:
- Refatoração complexa de código em múltiplos arquivos — lidera o SWE-bench Verified com 80,8%
- Coerência em contextos longos — mais forte em manter a qualidade em contextos muito extensos
- Raciocínio abstrato e inovador — vantagem de 16 pontos no ARC-AGI-2
- Busca agêntica e arquitetura profunda de código — excelente em tarefas que exigem compreensão profunda
- Qualidade e nuance de escrita — classificado como nº 1 em satisfação do usuário no Chatbot Arena
Resumo do Confronto Direto
| Dimensão | Vencedor | Margem |
|---|---|---|
| Uso de Computador (OSWorld) | GPT-5.4 | 75,0% vs 72,7% |
| Codificação (SWE-bench Verified) | Claude Opus 4.6 | 80,8% vs ~80% |
| Raciocínio Abstrato (ARC-AGI-2) | Claude Opus 4.6 | 68,8% vs 52,9% |
| Chamada de Ferramentas (Toolathlon) | GPT-5.4 | Menos etapas, melhor precisão |
| Trabalho de Conhecimento (GDPval) | GPT-5.4 | 83% |
| Preços | GPT-5.4 | ~50% mais barato |
| Satisfação do Usuário | Claude Opus 4.6 | nº 1 Chatbot Arena |
Como Acessar o GPT-5.4
O GPT-5.4 está disponível através de:
- ChatGPT — GPT-5.4 Thinking é o modelo padrão para usuários Plus, Pro e Team. O Mini está disponível para usuários da versão gratuita.
- OpenAI API — Todas as cinco variantes acessíveis através dos endpoints padrão de completions e chat.
- Codex App — Capacidades completas de uso de computador com o agente de desktop.
- OpenRouter — Acesso de terceiros a taxas competitivas.
computer_use e fornecer capturas de tela como entradas de imagem. O modelo retorna ações estruturadas (clicar, digitar, rolar) que sua aplicação traduz em eventos do sistema.
FAQ
O GPT-5.4 é melhor que o Claude Opus 4.6?
Depende da tarefa. O GPT-5.4 vence em uso de computador, chamada de ferramentas e eficiência de custos. O Claude Opus 4.6 vence em codificação complexa, raciocínio abstrato e qualidade de escrita. Para a maioria das equipes, a escolha depende se sua carga de trabalho principal é automação de desktop (GPT-5.4) ou engenharia de software profunda (Opus 4.6).
Quanto custa o GPT-5.4?
O modelo padrão custa $2,50 por milhão de tokens de entrada e $15,00 por milhão de tokens de saída. A variante Pro custa $30/$180 por MTok. O Mini custa $0,75/$4,50 por MTok. Prompts que excedem 272K tokens são cobrados o dobro da taxa de entrada.
O GPT-5.4 pode realmente usar um computador melhor que humanos?
No benchmark OSWorld-Verified, sim — 75,0% vs a linha de base de especialistas humanos de 72,4%. No entanto, benchmarks medem categorias específicas de tarefas. O uso do computador no mundo real envolve julgamento, contexto e adaptabilidade que os benchmarks não capturam totalmente. Ele deve ser visto como sobre-humano em tarefas de desktop estruturadas, não como um substituto total para o uso humano de computadores.
Qual é a janela de contexto do GPT-5.4?
Até 1,05 milhão de tokens. O nível padrão é 272K tokens. Estender além de 272K dobra o custo do token de entrada. O contexto total de 1M é crítico para fluxos de trabalho agênticos que acumulam longos históricos de interação.
Devo atualizar do GPT-5.3 Codex?
Se sua carga de trabalho envolve uso de computador ou orquestração de múltiplas ferramentas, sim. O salto de 64,7% para 75,0% no OSWorld é substancial. Para tarefas de codificação puras, a melhoria em relação ao GPT-5.3 Codex é mais incremental — o SWE-bench Pro passou de 56,8% para 57,7%. Avalie com base no seu caso de uso específico.
Quais variantes de modelo estão disponíveis?
Cinco: Standard, Thinking, Pro, Mini e Nano. O Standard e o Thinking compartilham o mesmo preço e são os principais modelos para a maioria dos casos de uso. O Pro é o nível premium para precisão máxima. O Mini visa implantações de produção sensíveis ao custo. O Nano foi projetado para aplicações em edge e embarcados.
Conclusão
O GPT-5.4 marca um verdadeiro ponto de inflexão para agentes de IA autônomos. É o primeiro modelo de propósito geral a superar especialistas humanos no uso de computadores desktop, e o faz sendo 50% mais barato que seu principal concorrente. A linha de cinco variantes significa que há um GPT-5.4 para cada orçamento e requisito de latência.
Dito isso, ele não é o melhor em tudo. O Claude Opus 4.6 continua sendo a escolha mais forte para engenharia de software complexa e raciocínio abstrato. O Gemini 3.1 Pro ainda lidera em vários benchmarks de raciocínio. A resposta certa para a maioria das equipes não é "qual modelo é o melhor", mas "qual modelo é o melhor para esta tarefa".
Se você está construindo produtos movidos a IA e quer aproveitar modelos como o GPT-5.4 e o Claude Opus 4.6 sem se atolar na infraestrutura, a Y Build ajuda você a entregar mais rápido. Fornecemos as ferramentas e a plataforma para construir, implantar e iterar em aplicações de IA — para que você possa focar no produto, não na estrutura.
Fontes: OpenAI GPT-5.4 Announcement, OpenAI API Pricing, NxCode GPT-5.4 Complete Guide, NxCode GPT-5.4 vs Claude Opus 4.6, DataCamp GPT-5.4 Overview, Artificial Analysis GPT-5.4, MindStudio Benchmark Comparison, Nerd Level Tech: GPT-5.4 Beats Humans