GPT-5.3 Codex: O Agente de Programação Autônomo da OpenAI

TL;DR

A OpenAI lançou o GPT-5.3 Codex em 5 de fevereiro de 2026 — no mesmo dia em que a Anthropic lançou o Opus 4.6. Estatísticas principais:

Terminal-Bench 2.0: 77.3% — lidera todos os modelos em programação agêntica em terminal
SWE-Bench Pro: 56.8% — pontuação máxima em quatro linguagens de programação
OSWorld: 64.7% — forte uso de computador (mas atrás dos 72.5% do Sonnet 4.6)
25% mais rápido que o GPT-5.2 Codex
Interativo enquanto trabalha — direcione o agente no meio da tarefa sem perder o contexto
Primeiro modelo de auto-bootstrapping — o GPT-5.3 Codex ajudou a depurar seu próprio treinamento
Disponível no app Codex, CLI e extensão de IDE para planos pagos do ChatGPT
Preços da API ainda não publicados

O que a OpenAI Anunciou

O GPT-5.3 Codex não é apenas um modelo de programação melhor. É o primeiro modelo da OpenAI projetado como um agente completo de ciclo de vida de software — depurando, implantando, monitorando, escrevendo PRDs, editando textos, executando testes e muito mais.

O recurso de destaque: tarefas autônomas de longa duração. Dê ao GPT-5.3 Codex uma tarefa complexa e ele trabalhará nela por horas — pesquisando, usando ferramentas, executando código e adaptando seu plano conforme avança. Você pode direcioná-lo no meio da tarefa sem perder o contexto, como se estivesse trabalhando com um colega.

A afirmação mais provocativa da OpenAI: o GPT-5.3 Codex é "o primeiro modelo que foi instrumental na criação de si mesmo". A equipe do Codex usou versões iniciais para depurar seu próprio pipeline de treinamento, gerenciar a implantação e diagnosticar resultados de avaliação.

Benchmarks

Onde o GPT-5.3 Codex Lidera

Benchmark	O que Testa	GPT-5.3 Codex	Melhor Concorrente
Terminal-Bench 2.0	Programação agêntica em terminal	77.3%	Gemini 3.1 Pro: 68.5%
SWE-Bench Pro	Programação em várias linguagens	56.8%	Gemini 3.1 Pro: 54.2%
HumanEval	Geração de código	93%	—
GPQA	Raciocínio científico	81%	Gemini 3.1 Pro: 94.3%

Comparação Completa

Benchmark	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	77.3%	65.4%	59.1%	68.5%
SWE-Bench Pro	56.8%	—	—	54.2%
OSWorld	64.7%	72.7%	72.5%	N/A
SWE-bench Verified	~80%	80.8%	79.6%	80.6%
ARC-AGI-2	52.9%	68.8%	58.3%	77.1%

O que os Números Significam

O GPT-5.3 Codex domina na programação agêntica em terminal — o tipo de trabalho em que um agente de IA precisa navegar em uma base de código, executar comandos, interpretar saídas, corrigir erros e iterar. A pontuação de 77.3% no Terminal-Bench está quase 9 pontos à frente do próximo melhor (Gemini 3.1 Pro com 68.5%) e 12 pontos à frente do Opus 4.6 (65.4%).

No entanto, em uso de computador (OSWorld), ele fica significativamente atrás do Claude — 64.7% contra 72.5% do Sonnet 4.6. E em raciocínio (ARC-AGI-2), ele está bem atrás do Gemini 3.1 Pro (77.1%) e do Opus 4.6 (68.8%).

Principais Recursos

1. Sessões Autônomas de Várias Horas

Modelos de programação anteriores trabalhavam em rajadas curtas — você envia um prompt, ele responde, você envia outro prompt. O GPT-5.3 Codex trabalha continuamente em tarefas complexas, gerenciando seu próprio fluxo de trabalho ao longo de várias etapas.

Exemplo de fluxo de trabalho: "Migre nosso sistema de autenticação de JWT para OAuth 2.0, atualize todos os endpoints afetados, escreva testes e verifique se a migração funciona." O GPT-5.3 Codex pesquisará a base de código, planejará a migração, a executará arquivo por arquivo, executará testes, corrigirá falhas e reportará o resultado — potencialmente ao longo de horas.

2. Direcionamento Interativo

Você pode redirecionar o GPT-5.3 Codex enquanto ele está trabalhando sem perder o contexto. Se você perceber que ele está seguindo o caminho errado, diga para mudar de direção. A conversa permanece contínua.

3. Ciclo de Vida Completo de Software

A OpenAI posiciona explicitamente o GPT-5.3 Codex além de apenas escrever código:

Debugging — lê logs de erro, rastreia causas raízes, aplica correções
Deploying — gerencia pipelines e configurações de implantação
Monitoring — monitora problemas em sistemas em execução
PRDs e docs — escreve requisitos de produto e documentação
Pesquisa de usuário — sintetiza feedback e resultados de testes
Testes — gera e executa suítes de testes
Métricas — analisa dados de desempenho

4. Auto-Bootstrapping

O GPT-5.3 Codex usou versões iniciais de si mesmo durante o desenvolvimento para:

Depurar problemas no pipeline de treinamento

Gerenciar a implantação do modelo

Diagnosticar resultados de avaliação

Iterar no desenvolvimento de jogos de forma autônoma ao longo de milhões de tokens

Esta é a primeira vez que um modelo de IA é descrito publicamente como tendo contribuído para sua própria criação.

GPT-5.3 Codex vs. Claude Code

Capacidade	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
Programação em terminal	77.3%	Opus: 65.4%, Sonnet: 59.1%
Uso de computador	64.7%	Sonnet: 72.5%, Opus: 72.7%
SWE-bench	~80%	Opus: 80.8%, Sonnet: 79.6%
Autonomia de várias horas	Sim	Limitada
Direcionamento interativo	Sim	Sim
Integração com IDE	Extensão Codex IDE	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
Tarefas de escritório	Limitada	Sonnet: 1633 Elo
Resistência a injeção de prompt	Padrão	Nível Opus
Preços da API	A definir	$3/$15 (Sonnet), $15/$75 (Opus)

Escolha o GPT-5.3 Codex quando:

Tiver tarefas de programação autônomas de longa duração (sessões de várias horas)
Tiver fluxos de trabalho pesados em terminal com cadeias de ferramentas complexas
Já estiver no ecossistema OpenAI/ChatGPT
Precisar de automação total do ciclo de vida de software

Escolha o Claude Code quando:

Precisar de uso de computador / automação de navegador (72.5% vs 64.7%)
Realizar tarefas de escritório juntamente com a programação
A segurança do agente for crítica (melhor resistência a injeção de prompt)
Precisar de previsibilidade de custos de API (preços conhecidos de $3/$15)

Disponibilidade

O GPT-5.3 Codex está disponível para planos pagos do ChatGPT (Plus, Pro, Team, Enterprise) através de:

Codex app (web) — interface completa de agente autônomo
Codex CLI — agente de programação baseado em terminal
IDE extension — integrado ao seu editor
API — disponível em semanas (preços a definir)

Não há acesso gratuito no momento.

O que isso significa para os Desenvolvedores

A Corrida dos Agentes de Programação com IA é Real

O dia 5 de fevereiro de 2026 viu tanto a OpenAI quanto a Anthropic lançarem modelos importantes no mesmo dia — GPT-5.3 Codex e Claude Opus 4.6. A mensagem é clara: agentes de programação autônomos são o principal campo de batalha competitivo.

Diferentes Pontos Fortes, Diferentes Fluxos de Trabalho

O GPT-5.3 Codex se destaca em programação autônoma baseada em terminal em sessões longas. O Claude se destaca no uso de computador, integração com escritório e segurança. O Gemini 3.1 Pro lidera em raciocínio e multimodalidade.

Para a maioria dos desenvolvedores, a escolha depende do seu fluxo de trabalho:

Trabalho pesado em CLI/terminal → GPT-5.3 Codex

Automação de navegador + tarefas mistas → Claude Code

Trabalho científico/pesado em raciocínio → Gemini 3.1 Pro

O Modelo é Apenas o Começo

A tendência entre os três laboratórios é: o modelo sozinho não é suficiente. Você precisa de ferramentas de implantação, monitoramento, análise e crescimento ao seu redor. O agente de programação com IA escreve o código, mas lançar um produto exige todo o stack.

Publique o que você constrói. O Y Build cuida de tudo após o código: implantação em um clique, Demo Cut para vídeos de produto, SEO com IA e análise de dados. Funciona com qualquer ferramenta de programação com IA. Comece gratuitamente.

Fontes: