GPT-5.3 Codex: OpenAI's Autonomous Coding Agent
OpenAI ha rilasciato GPT-5.3 Codex il 5 febbraio 2026 — il primo modello AI che ha aiutato a costruire se stesso. 77.3% Terminal-Bench, 56.8% SWE-Bench Pro, sessioni di coding autonome di più ore. Analisi completa delle funzionalità, dei benchmark e del confronto con Claude Code.
TL;DR
OpenAI ha rilasciato GPT-5.3 Codex il 5 febbraio 2026 — lo stesso giorno in cui Anthropic ha lanciato Opus 4.6. Statistiche chiave:
- Terminal-Bench 2.0: 77.3% — guida tutti i modelli nel coding da terminale ad agenti
- SWE-Bench Pro: 56.8% — punteggio massimo in quattro lingue di programmazione
- OSWorld: 64.7% — ottimo utilizzo del computer (ma dietro il 72.5% di Sonnet 4.6)
- 25% più veloce rispetto a GPT-5.2 Codex
- Interattivo durante il lavoro — possibilità di dirigere l'agente a metà attività senza perdere il contesto
- Primo modello self-bootstrapping — GPT-5.3 Codex ha aiutato a eseguire il debug del proprio addestramento
- Disponibile nell'app Codex, CLI ed estensione IDE per i piani ChatGPT a pagamento
- Prezzi delle API non ancora pubblicati
Cosa ha annunciato OpenAI
GPT-5.3 Codex non è solo un modello di coding migliore. È il primo modello di OpenAI progettato come un agente per l'intero ciclo di vita del software — debug, deploy, monitoraggio, scrittura di PRD, editing di testi, esecuzione di test e altro ancora.
La funzionalità principale: attività autonome a lunga durata. Assegna a GPT-5.3 Codex un compito complesso e lui ci lavorerà per ore — effettuando ricerche, utilizzando strumenti, eseguendo codice e adattando il suo piano in corso d'opera. Puoi dirigerlo a metà attività senza perdere il contesto, proprio come se lavorassi con un collega.
La dichiarazione più provocatoria di OpenAI: GPT-5.3 Codex è "il primo modello che è stato fondamentale nel creare se stesso". Il team di Codex ha utilizzato le prime versioni per eseguire il debug della propria pipeline di addestramento, gestire il deployment e diagnosticare i risultati delle valutazioni.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Benchmark
Dove GPT-5.3 Codex primeggia
| Benchmark | Cosa testa | GPT-5.3 Codex | Miglior concorrente |
|---|---|---|---|
| Terminal-Bench 2.0 | Coding da terminale ad agenti | 77.3% | Gemini 3.1 Pro: 68.5% |
| SWE-Bench Pro | Coding multi-linguaggio | 56.8% | Gemini 3.1 Pro: 54.2% |
| HumanEval | Generazione di codice | 93% | — |
| GPQA | Ragionamento scientifico | 81% | Gemini 3.1 Pro: 94.3% |
Confronto completo
| Benchmark | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 77.3% | 65.4% | 59.1% | 68.5% |
| SWE-Bench Pro | 56.8% | — | — | 54.2% |
| OSWorld | 64.7% | 72.7% | 72.5% | N/A |
| SWE-bench Verified | ~80% | 80.8% | 79.6% | 80.6% |
| ARC-AGI-2 | 52.9% | 68.8% | 58.3% | 77.1% |
Cosa significano i numeri
GPT-5.3 Codex domina nel coding da terminale ad agenti — il tipo di lavoro in cui un agente AI deve navigare in una codebase, eseguire comandi, interpretare l'output, correggere errori e iterare. Il punteggio del 77.3% su Terminal-Bench è quasi 9 punti avanti rispetto al secondo classificato (Gemini 3.1 Pro al 68.5%) e 12 punti avanti rispetto a Opus 4.6 (65.4%).
Tuttavia, nell'utilizzo del computer (OSWorld), rimane sensibilmente indietro rispetto a Claude — 64.7% contro il 72.5% di Sonnet 4.6. E nel ragionamento (ARC-AGI-2), è molto distante da Gemini 3.1 Pro (77.1%) e Opus 4.6 (68.8%).
Funzionalità chiave
1. Sessioni autonome di più ore
I modelli di coding precedenti lavoravano a brevi intervalli — tu davi un prompt, lui rispondeva, tu davi un altro prompt. GPT-5.3 Codex lavora continuamente su compiti complessi, gestendo il proprio flusso di lavoro attraverso molti passaggi.
Esempio di flusso di lavoro: "Migra il nostro sistema di autenticazione da JWT a OAuth 2.0, aggiorna tutti gli endpoint interessati, scrivi i test e verifica che la migrazione funzioni." GPT-5.3 Codex analizzerà la codebase, pianificherà la migrazione, la eseguirà file per file, eseguirà i test, correggerà i fallimenti e riferirà l'esito — potenzialmente nell'arco di diverse ore.
2. Guida interattiva
Puoi reindirizzare GPT-5.3 Codex mentre sta lavorando senza perdere il contesto. Se vedi che sta prendendo la strada sbagliata, puoi dirgli di cambiare direzione. La conversazione rimane continua.
3. Intero ciclo di vita del software
OpenAI posiziona esplicitamente GPT-5.3 Codex oltre la semplice scrittura di codice:
- Debug — legge i log di errore, traccia le cause scatenanti, applica correzioni
- Deploying — gestisce le pipeline di deployment e le configurazioni
- Monitoraggio — sorveglia eventuali problemi nei sistemi in esecuzione
- PRD e documenti — scrive requisiti di prodotto e documentazione
- Ricerca utenti — sintetizza feedback e risultati dei test
- Testing — genera ed esegue suite di test
- Metriche — analizza i dati sulle prestazioni
4. Self-Bootstrapping
GPT-5.3 Codex ha utilizzato le prime versioni di se stesso durante lo sviluppo per:
- Risolvere problemi nella pipeline di addestramento
- Gestire il deployment del modello
- Diagnosticare i risultati delle valutazioni
- Iterare sullo sviluppo di giochi in modo autonomo su milioni di token
Questa è la prima volta che un modello AI viene descritto pubblicamente come contributore alla propria creazione.
GPT-5.3 Codex vs. Claude Code
| Capacità | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| Coding da terminale | 77.3% | Opus: 65.4%, Sonnet: 59.1% |
| Utilizzo del computer | 64.7% | Sonnet: 72.5%, Opus: 72.7% |
| SWE-bench | ~80% | Opus: 80.8%, Sonnet: 79.6% |
| Autonomia di più ore | Sì | Limitata |
| Guida interattiva | Sì | Sì |
| Integrazione IDE | Estensione Codex IDE | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| Attività d'ufficio | Limitate | Sonnet: 1633 Elo |
| Resistenza prompt injection | Standard | Livello Opus |
| Prezzi API | TBD | $3/$15 (Sonnet), $15/$75 (Opus) |
- Hai attività di coding autonome di lunga durata (sessioni di più ore)
- Hai flussi di lavoro pesanti su terminale con catene di strumenti complesse
- Sei già nell'ecosistema OpenAI/ChatGPT
- Desideri l'automazione dell'intero ciclo di vita del software
- L'utilizzo del computer / l'automazione del browser è prioritaria (72.5% vs 64.7%)
- Svolgi attività d'ufficio insieme al coding
- La sicurezza dell'agente è critica (migliore resistenza alla prompt injection)
- È necessaria la prevedibilità dei costi API (prezzi noti $3/$15)
Disponibilità
GPT-5.3 Codex è disponibile per i piani ChatGPT a pagamento (Plus, Pro, Team, Enterprise) attraverso:
- App Codex (web) — interfaccia completa dell'agente autonomo
- Codex CLI — agente di coding basato su terminale
- Estensione IDE — integrata nel tuo editor
- API — in arrivo tra poche settimane (prezzi TBD)
Cosa significa per gli sviluppatori
La corsa agli agenti di coding AI è reale
Il 5 febbraio 2026 ha visto sia OpenAI che Anthropic rilasciare modelli principali nello stesso giorno — GPT-5.3 Codex e Claude Opus 4.6. Il messaggio è chiaro: gli agenti di coding autonomi sono il principale campo di battaglia competitivo.
Punti di forza diversi, flussi di lavoro diversi
GPT-5.3 Codex eccelle nel coding autonomo basato su terminale in sessioni lunghe. Claude eccelle nell'utilizzo del computer, nell'integrazione con l'ufficio e nella sicurezza. Gemini 3.1 Pro guida nel ragionamento e nella multimodalità.
Per la maggior parte degli sviluppatori, la scelta dipende dal proprio flusso di lavoro:
- Lavoro intenso su CLI/terminale → GPT-5.3 Codex
- Automazione browser + attività miste → Claude Code
- Lavoro scientifico/basato sul ragionamento → Gemini 3.1 Pro
Il modello è solo l'inizio
La tendenza in tutti e tre i laboratori è questa: il modello da solo non basta. Sono necessari strumenti di deployment, monitoraggio, analisi e crescita intorno ad esso. L'agente di coding AI scrive il codice, ma per lanciare un prodotto serve l'intero stack.
Pubblica ciò che costruisci. Y Build gestisce tutto dopo il codice: deploy con un clic, Demo Cut per i video di prodotto, AI SEO e analytics. Funziona con qualsiasi strumento di coding AI. Inizia gratuitamente.
Fonti:
- OpenAI: Introducing GPT-5.3-Codex
- OpenAI: GPT-5.3-Codex System Card
- Fortune: OpenAI GPT-5.3 Codex raises cybersecurity risks
- MarkTechPost: GPT-5.3-Codex agentic coding model
- DataCamp: GPT-5.3 Codex from coding to general work agent
- OfficeChai: Gemini 3.1 Pro Benchmarks (GPT-5.3 comparison)
- LLM Stats: GPT-5.3 Codex pricing and benchmarks
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.