GPT-5.3 Codex: OpenAI's Autonomous Coding Agent

TL;DR

OpenAI ha rilasciato GPT-5.3 Codex il 5 febbraio 2026 — lo stesso giorno in cui Anthropic ha lanciato Opus 4.6. Statistiche chiave:

Terminal-Bench 2.0: 77.3% — guida tutti i modelli nel coding da terminale ad agenti
SWE-Bench Pro: 56.8% — punteggio massimo in quattro lingue di programmazione
OSWorld: 64.7% — ottimo utilizzo del computer (ma dietro il 72.5% di Sonnet 4.6)
25% più veloce rispetto a GPT-5.2 Codex
Interattivo durante il lavoro — possibilità di dirigere l'agente a metà attività senza perdere il contesto
Primo modello self-bootstrapping — GPT-5.3 Codex ha aiutato a eseguire il debug del proprio addestramento
Disponibile nell'app Codex, CLI ed estensione IDE per i piani ChatGPT a pagamento
Prezzi delle API non ancora pubblicati

Cosa ha annunciato OpenAI

GPT-5.3 Codex non è solo un modello di coding migliore. È il primo modello di OpenAI progettato come un agente per l'intero ciclo di vita del software — debug, deploy, monitoraggio, scrittura di PRD, editing di testi, esecuzione di test e altro ancora.

La funzionalità principale: attività autonome a lunga durata. Assegna a GPT-5.3 Codex un compito complesso e lui ci lavorerà per ore — effettuando ricerche, utilizzando strumenti, eseguendo codice e adattando il suo piano in corso d'opera. Puoi dirigerlo a metà attività senza perdere il contesto, proprio come se lavorassi con un collega.

La dichiarazione più provocatoria di OpenAI: GPT-5.3 Codex è "il primo modello che è stato fondamentale nel creare se stesso". Il team di Codex ha utilizzato le prime versioni per eseguire il debug della propria pipeline di addestramento, gestire il deployment e diagnosticare i risultati delle valutazioni.

Benchmark

Dove GPT-5.3 Codex primeggia

Benchmark	Cosa testa	GPT-5.3 Codex	Miglior concorrente
Terminal-Bench 2.0	Coding da terminale ad agenti	77.3%	Gemini 3.1 Pro: 68.5%
SWE-Bench Pro	Coding multi-linguaggio	56.8%	Gemini 3.1 Pro: 54.2%
HumanEval	Generazione di codice	93%	—
GPQA	Ragionamento scientifico	81%	Gemini 3.1 Pro: 94.3%

Confronto completo

Benchmark	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	77.3%	65.4%	59.1%	68.5%
SWE-Bench Pro	56.8%	—	—	54.2%
OSWorld	64.7%	72.7%	72.5%	N/A
SWE-bench Verified	~80%	80.8%	79.6%	80.6%
ARC-AGI-2	52.9%	68.8%	58.3%	77.1%

Cosa significano i numeri

GPT-5.3 Codex domina nel coding da terminale ad agenti — il tipo di lavoro in cui un agente AI deve navigare in una codebase, eseguire comandi, interpretare l'output, correggere errori e iterare. Il punteggio del 77.3% su Terminal-Bench è quasi 9 punti avanti rispetto al secondo classificato (Gemini 3.1 Pro al 68.5%) e 12 punti avanti rispetto a Opus 4.6 (65.4%).

Tuttavia, nell'utilizzo del computer (OSWorld), rimane sensibilmente indietro rispetto a Claude — 64.7% contro il 72.5% di Sonnet 4.6. E nel ragionamento (ARC-AGI-2), è molto distante da Gemini 3.1 Pro (77.1%) e Opus 4.6 (68.8%).

Funzionalità chiave

1. Sessioni autonome di più ore

I modelli di coding precedenti lavoravano a brevi intervalli — tu davi un prompt, lui rispondeva, tu davi un altro prompt. GPT-5.3 Codex lavora continuamente su compiti complessi, gestendo il proprio flusso di lavoro attraverso molti passaggi.

Esempio di flusso di lavoro: "Migra il nostro sistema di autenticazione da JWT a OAuth 2.0, aggiorna tutti gli endpoint interessati, scrivi i test e verifica che la migrazione funzioni." GPT-5.3 Codex analizzerà la codebase, pianificherà la migrazione, la eseguirà file per file, eseguirà i test, correggerà i fallimenti e riferirà l'esito — potenzialmente nell'arco di diverse ore.

2. Guida interattiva

Puoi reindirizzare GPT-5.3 Codex mentre sta lavorando senza perdere il contesto. Se vedi che sta prendendo la strada sbagliata, puoi dirgli di cambiare direzione. La conversazione rimane continua.

3. Intero ciclo di vita del software

OpenAI posiziona esplicitamente GPT-5.3 Codex oltre la semplice scrittura di codice:

Debug — legge i log di errore, traccia le cause scatenanti, applica correzioni
Deploying — gestisce le pipeline di deployment e le configurazioni
Monitoraggio — sorveglia eventuali problemi nei sistemi in esecuzione
PRD e documenti — scrive requisiti di prodotto e documentazione
Ricerca utenti — sintetizza feedback e risultati dei test
Testing — genera ed esegue suite di test
Metriche — analizza i dati sulle prestazioni

4. Self-Bootstrapping

GPT-5.3 Codex ha utilizzato le prime versioni di se stesso durante lo sviluppo per:

Risolvere problemi nella pipeline di addestramento

Gestire il deployment del modello

Diagnosticare i risultati delle valutazioni

Iterare sullo sviluppo di giochi in modo autonomo su milioni di token

Questa è la prima volta che un modello AI viene descritto pubblicamente come contributore alla propria creazione.

GPT-5.3 Codex vs. Claude Code

Capacità	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
Coding da terminale	77.3%	Opus: 65.4%, Sonnet: 59.1%
Utilizzo del computer	64.7%	Sonnet: 72.5%, Opus: 72.7%
SWE-bench	~80%	Opus: 80.8%, Sonnet: 79.6%
Autonomia di più ore	Sì	Limitata
Guida interattiva	Sì	Sì
Integrazione IDE	Estensione Codex IDE	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
Attività d'ufficio	Limitate	Sonnet: 1633 Elo
Resistenza prompt injection	Standard	Livello Opus
Prezzi API	TBD	$3/$15 (Sonnet), $15/$75 (Opus)

Scegli GPT-5.3 Codex quando:

Hai attività di coding autonome di lunga durata (sessioni di più ore)
Hai flussi di lavoro pesanti su terminale con catene di strumenti complesse
Sei già nell'ecosistema OpenAI/ChatGPT
Desideri l'automazione dell'intero ciclo di vita del software

Scegli Claude Code quando:

L'utilizzo del computer / l'automazione del browser è prioritaria (72.5% vs 64.7%)
Svolgi attività d'ufficio insieme al coding
La sicurezza dell'agente è critica (migliore resistenza alla prompt injection)
È necessaria la prevedibilità dei costi API (prezzi noti $3/$15)

Disponibilità

GPT-5.3 Codex è disponibile per i piani ChatGPT a pagamento (Plus, Pro, Team, Enterprise) attraverso:

App Codex (web) — interfaccia completa dell'agente autonomo
Codex CLI — agente di coding basato su terminale
Estensione IDE — integrata nel tuo editor
API — in arrivo tra poche settimane (prezzi TBD)

Attualmente non è previsto l'accesso al piano gratuito.

Cosa significa per gli sviluppatori

La corsa agli agenti di coding AI è reale

Il 5 febbraio 2026 ha visto sia OpenAI che Anthropic rilasciare modelli principali nello stesso giorno — GPT-5.3 Codex e Claude Opus 4.6. Il messaggio è chiaro: gli agenti di coding autonomi sono il principale campo di battaglia competitivo.

Punti di forza diversi, flussi di lavoro diversi

GPT-5.3 Codex eccelle nel coding autonomo basato su terminale in sessioni lunghe. Claude eccelle nell'utilizzo del computer, nell'integrazione con l'ufficio e nella sicurezza. Gemini 3.1 Pro guida nel ragionamento e nella multimodalità.

Per la maggior parte degli sviluppatori, la scelta dipende dal proprio flusso di lavoro:

Lavoro intenso su CLI/terminale → GPT-5.3 Codex

Automazione browser + attività miste → Claude Code

Lavoro scientifico/basato sul ragionamento → Gemini 3.1 Pro

Il modello è solo l'inizio

La tendenza in tutti e tre i laboratori è questa: il modello da solo non basta. Sono necessari strumenti di deployment, monitoraggio, analisi e crescita intorno ad esso. L'agente di coding AI scrive il codice, ma per lanciare un prodotto serve l'intero stack.

Pubblica ciò che costruisci. Y Build gestisce tutto dopo il codice: deploy con un clic, Demo Cut per i video di prodotto, AI SEO e analytics. Funziona con qualsiasi strumento di coding AI. Inizia gratuitamente.

Fonti: