GPT-5.3 Codex: O Agente de Programação Autônomo da OpenAI
A OpenAI lançou o GPT-5.3 Codex em 5 de fevereiro de 2026 — o primeiro modelo de IA que ajudou a construir a si mesmo. 77.3% no Terminal-Bench, 56.8% no SWE-Bench Pro, sessões de programação autônomas de várias horas. Análise completa de recursos, benchmarks e como ele se compara ao Claude Code.
TL;DR
A OpenAI lançou o GPT-5.3 Codex em 5 de fevereiro de 2026 — no mesmo dia em que a Anthropic lançou o Opus 4.6. Estatísticas principais:
- Terminal-Bench 2.0: 77.3% — lidera todos os modelos em programação agêntica em terminal
- SWE-Bench Pro: 56.8% — pontuação máxima em quatro linguagens de programação
- OSWorld: 64.7% — forte uso de computador (mas atrás dos 72.5% do Sonnet 4.6)
- 25% mais rápido que o GPT-5.2 Codex
- Interativo enquanto trabalha — direcione o agente no meio da tarefa sem perder o contexto
- Primeiro modelo de auto-bootstrapping — o GPT-5.3 Codex ajudou a depurar seu próprio treinamento
- Disponível no app Codex, CLI e extensão de IDE para planos pagos do ChatGPT
- Preços da API ainda não publicados
O que a OpenAI Anunciou
O GPT-5.3 Codex não é apenas um modelo de programação melhor. É o primeiro modelo da OpenAI projetado como um agente completo de ciclo de vida de software — depurando, implantando, monitorando, escrevendo PRDs, editando textos, executando testes e muito mais.
O recurso de destaque: tarefas autônomas de longa duração. Dê ao GPT-5.3 Codex uma tarefa complexa e ele trabalhará nela por horas — pesquisando, usando ferramentas, executando código e adaptando seu plano conforme avança. Você pode direcioná-lo no meio da tarefa sem perder o contexto, como se estivesse trabalhando com um colega.
A afirmação mais provocativa da OpenAI: o GPT-5.3 Codex é "o primeiro modelo que foi instrumental na criação de si mesmo". A equipe do Codex usou versões iniciais para depurar seu próprio pipeline de treinamento, gerenciar a implantação e diagnosticar resultados de avaliação.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Benchmarks
Onde o GPT-5.3 Codex Lidera
| Benchmark | O que Testa | GPT-5.3 Codex | Melhor Concorrente |
|---|---|---|---|
| Terminal-Bench 2.0 | Programação agêntica em terminal | 77.3% | Gemini 3.1 Pro: 68.5% |
| SWE-Bench Pro | Programação em várias linguagens | 56.8% | Gemini 3.1 Pro: 54.2% |
| HumanEval | Geração de código | 93% | — |
| GPQA | Raciocínio científico | 81% | Gemini 3.1 Pro: 94.3% |
Comparação Completa
| Benchmark | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 77.3% | 65.4% | 59.1% | 68.5% |
| SWE-Bench Pro | 56.8% | — | — | 54.2% |
| OSWorld | 64.7% | 72.7% | 72.5% | N/A |
| SWE-bench Verified | ~80% | 80.8% | 79.6% | 80.6% |
| ARC-AGI-2 | 52.9% | 68.8% | 58.3% | 77.1% |
O que os Números Significam
O GPT-5.3 Codex domina na programação agêntica em terminal — o tipo de trabalho em que um agente de IA precisa navegar em uma base de código, executar comandos, interpretar saídas, corrigir erros e iterar. A pontuação de 77.3% no Terminal-Bench está quase 9 pontos à frente do próximo melhor (Gemini 3.1 Pro com 68.5%) e 12 pontos à frente do Opus 4.6 (65.4%).
No entanto, em uso de computador (OSWorld), ele fica significativamente atrás do Claude — 64.7% contra 72.5% do Sonnet 4.6. E em raciocínio (ARC-AGI-2), ele está bem atrás do Gemini 3.1 Pro (77.1%) e do Opus 4.6 (68.8%).
Principais Recursos
1. Sessões Autônomas de Várias Horas
Modelos de programação anteriores trabalhavam em rajadas curtas — você envia um prompt, ele responde, você envia outro prompt. O GPT-5.3 Codex trabalha continuamente em tarefas complexas, gerenciando seu próprio fluxo de trabalho ao longo de várias etapas.
Exemplo de fluxo de trabalho: "Migre nosso sistema de autenticação de JWT para OAuth 2.0, atualize todos os endpoints afetados, escreva testes e verifique se a migração funciona." O GPT-5.3 Codex pesquisará a base de código, planejará a migração, a executará arquivo por arquivo, executará testes, corrigirá falhas e reportará o resultado — potencialmente ao longo de horas.
2. Direcionamento Interativo
Você pode redirecionar o GPT-5.3 Codex enquanto ele está trabalhando sem perder o contexto. Se você perceber que ele está seguindo o caminho errado, diga para mudar de direção. A conversa permanece contínua.
3. Ciclo de Vida Completo de Software
A OpenAI posiciona explicitamente o GPT-5.3 Codex além de apenas escrever código:
- Debugging — lê logs de erro, rastreia causas raízes, aplica correções
- Deploying — gerencia pipelines e configurações de implantação
- Monitoring — monitora problemas em sistemas em execução
- PRDs e docs — escreve requisitos de produto e documentação
- Pesquisa de usuário — sintetiza feedback e resultados de testes
- Testes — gera e executa suítes de testes
- Métricas — analisa dados de desempenho
4. Auto-Bootstrapping
O GPT-5.3 Codex usou versões iniciais de si mesmo durante o desenvolvimento para:
- Depurar problemas no pipeline de treinamento
- Gerenciar a implantação do modelo
- Diagnosticar resultados de avaliação
- Iterar no desenvolvimento de jogos de forma autônoma ao longo de milhões de tokens
Esta é a primeira vez que um modelo de IA é descrito publicamente como tendo contribuído para sua própria criação.
GPT-5.3 Codex vs. Claude Code
| Capacidade | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| Programação em terminal | 77.3% | Opus: 65.4%, Sonnet: 59.1% |
| Uso de computador | 64.7% | Sonnet: 72.5%, Opus: 72.7% |
| SWE-bench | ~80% | Opus: 80.8%, Sonnet: 79.6% |
| Autonomia de várias horas | Sim | Limitada |
| Direcionamento interativo | Sim | Sim |
| Integração com IDE | Extensão Codex IDE | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| Tarefas de escritório | Limitada | Sonnet: 1633 Elo |
| Resistência a injeção de prompt | Padrão | Nível Opus |
| Preços da API | A definir | $3/$15 (Sonnet), $15/$75 (Opus) |
- Tiver tarefas de programação autônomas de longa duração (sessões de várias horas)
- Tiver fluxos de trabalho pesados em terminal com cadeias de ferramentas complexas
- Já estiver no ecossistema OpenAI/ChatGPT
- Precisar de automação total do ciclo de vida de software
- Precisar de uso de computador / automação de navegador (72.5% vs 64.7%)
- Realizar tarefas de escritório juntamente com a programação
- A segurança do agente for crítica (melhor resistência a injeção de prompt)
- Precisar de previsibilidade de custos de API (preços conhecidos de $3/$15)
Disponibilidade
O GPT-5.3 Codex está disponível para planos pagos do ChatGPT (Plus, Pro, Team, Enterprise) através de:
- Codex app (web) — interface completa de agente autônomo
- Codex CLI — agente de programação baseado em terminal
- IDE extension — integrado ao seu editor
- API — disponível em semanas (preços a definir)
O que isso significa para os Desenvolvedores
A Corrida dos Agentes de Programação com IA é Real
O dia 5 de fevereiro de 2026 viu tanto a OpenAI quanto a Anthropic lançarem modelos importantes no mesmo dia — GPT-5.3 Codex e Claude Opus 4.6. A mensagem é clara: agentes de programação autônomos são o principal campo de batalha competitivo.
Diferentes Pontos Fortes, Diferentes Fluxos de Trabalho
O GPT-5.3 Codex se destaca em programação autônoma baseada em terminal em sessões longas. O Claude se destaca no uso de computador, integração com escritório e segurança. O Gemini 3.1 Pro lidera em raciocínio e multimodalidade.
Para a maioria dos desenvolvedores, a escolha depende do seu fluxo de trabalho:
- Trabalho pesado em CLI/terminal → GPT-5.3 Codex
- Automação de navegador + tarefas mistas → Claude Code
- Trabalho científico/pesado em raciocínio → Gemini 3.1 Pro
O Modelo é Apenas o Começo
A tendência entre os três laboratórios é: o modelo sozinho não é suficiente. Você precisa de ferramentas de implantação, monitoramento, análise e crescimento ao seu redor. O agente de programação com IA escreve o código, mas lançar um produto exige todo o stack.
Publique o que você constrói. O Y Build cuida de tudo após o código: implantação em um clique, Demo Cut para vídeos de produto, SEO com IA e análise de dados. Funciona com qualquer ferramenta de programação com IA. Comece gratuitamente.
Fontes:
- OpenAI: Introducing GPT-5.3-Codex
- OpenAI: GPT-5.3-Codex System Card
- Fortune: OpenAI GPT-5.3 Codex raises cybersecurity risks
- MarkTechPost: GPT-5.3-Codex agentic coding model
- DataCamp: GPT-5.3 Codex from coding to general work agent
- OfficeChai: Gemini 3.1 Pro Benchmarks (GPT-5.3 comparison)
- LLM Stats: GPT-5.3 Codex pricing and benchmarks
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.