Guida a GPT-5.4: Il modello ad agenti autonomi di OpenAI (2026)
GPT-5.4 ottiene il 75% su OSWorld, superando gli esseri umani nell'uso del computer. Context window da 1M, $2.50/MTok, 5 varianti del modello. Benchmark completi, prezzi e guida comparativa.
TL;DR
OpenAI ha rilasciato GPT-5.4 il 5 marzo 2026 — il primo modello general-purpose a superare gli esseri umani nell'uso autonomo del computer. Statistiche chiave:
| Caratteristica | Dettaglio |
|---|---|
| Verificato da OSWorld | 75.0% — supera la baseline umana (72.4%) |
| SWE-bench Pro | 57.7% — coding solido, ma segue Claude Opus 4.6 (80.8%) |
| Finestra di Contesto | Fino a 1.05M di token (272K standard, 1M estesa) |
| Uso del Computer | Nativo, allo stato dell'arte — il primo integrato in un modello generale |
| Efficienza dei Token | Significativamente meno token rispetto a GPT-5.2 per compiti equivalenti |
| Prezzo API | $2.50 input / $15.00 output per 1M di token |
| Varianti | Standard, Thinking, Pro, Mini, Nano |
| Pensiero Interattivo | Piano iniziale + guida a metà risposta |
Cos'è GPT-5.4?
GPT-5.4 è il modello linguistico di punta di OpenAI, rilasciato il 5 marzo 2026. Combina il meglio della forza nel coding di GPT-5.3 Codex con capacità rivoluzionarie di uso autonomo del computer, una finestra di contesto da 1 milione di token e un nuovo sistema di pensiero interattivo.
Il titolo principale: GPT-5.4 è il primo modello AI general-purpose a superare le prestazioni umane nelle attività su computer desktop. Ottiene un punteggio del 75.0% su OSWorld-Verified — un benchmark in cui i tester umani esperti ottengono il 72.4%. Nessun altro modello aveva superato chiaramente quella soglia in precedenza.
Si tratta di un miglioramento di 28 punti rispetto a GPT-5.2 (47.3%) in meno di quattro mesi. Il modello può analizzare le coordinate dello schermo dagli screenshot e impartire direttamente comandi di mouse e tastiera, permettendogli di navigare tra file, browser, terminali e software di produttività in modo autonomo.
Caratteristiche Chiave
Uso Nativo del Computer
A differenza dei modelli precedenti che necessitavano di strumenti esterni per il controllo del computer, GPT-5.4 ha funzionalità di uso del computer integrate. Nell'app Codex e tramite API, il modello può:
- Navigare in ambienti desktop attraverso screenshot e azioni di tastiera/mouse
- Operare su più applicazioni in sequenza
- Completare workflow multi-step (gestione file, attività nel browser, operazioni da terminale)
- Gestire software di produttività come fogli di calcolo, presentazioni e documenti
Finestra di Contesto da 1 Milione di Token
GPT-5.4 supporta fino a 1.05M di token di contesto. La finestra standard è di 272K token; le richieste che superano questa soglia vengono elaborate a una tariffa di input doppia rispetto alla normale. Questo contesto massivo è fondamentale per i workflow agentici in cui il modello deve tenere in memoria lunghe cronologie di utilizzo di strumenti, codebase estese o set di documenti prolungati.
Pensiero Interattivo
GPT-5.4 Thinking introduce un nuovo paradigma: il modello fornisce un piano iniziale del suo ragionamento e l'utente può guidarlo a metà risposta. È possibile aggiungere istruzioni, correggere la rotta o affinare la direzione senza ricominciare da capo. Si tratta di un miglioramento significativo dell'esperienza utente per compiti complessi e multi-fase.
Migliore Efficienza dei Token
OpenAI riferisce che GPT-5.4 utilizza significativamente meno token per risolvere i problemi rispetto a GPT-5.2, insieme a una riduzione del 33% degli errori fattuali. Per le implementazioni in produzione, ciò significa costi inferiori per attività ancora prima di considerare i prezzi competitivi.
Benchmark
Dove GPT-5.4 è in Testa
| Benchmark | Cosa Testa | GPT-5.4 | Miglior Concorrente |
|---|---|---|---|
| OSWorld-Verified | Uso del computer desktop | 75.0% | Claude Opus 4.6: 72.7% |
| Toolathlon | Uso di strumenti/API multi-step | Punteggio massimo | — |
| GDPval | Lavoro intellettuale | 83% | — |
Confronto Completo dei Modelli
| Benchmark | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.7% | N/A |
| SWE-bench Verified | ~80% | 80.8% | 80.6% |
| SWE-bench Pro | 57.7% | ~45% | 54.2% |
| ARC-AGI-2 | 52.9% | 68.8% | 77.1% |
| GDPval | 83% | — | — |
Cosa Significano i Numeri
GPT-5.4 è il primo modello che gestisce in modo credibile l'uso del computer, il coding e il lavoro intellettuale a livello di frontiera simultaneamente. Il punteggio del 75% su OSWorld è il traguardo più chiaro — significa che il modello può completare tre attività desktop reali su quattro che persino gli esperti umani trovano impegnative.
Tuttavia, il quadro è sfumato. Su SWE-bench Verified (coding nel mondo reale), sia Claude Opus 4.6 che Gemini 3.1 Pro superano significativamente GPT-5.4 rispettivamente con l'80.8% e l'80.6%. Nel ragionamento astratto (ARC-AGI-2), GPT-5.4 segue Claude Opus 4.6 di 16 punti percentuali e Gemini 3.1 Pro di oltre 24 punti.
Il risultato: GPT-5.4 vince sul controllo autonomo del computer e sull'uso pratico degli strumenti, ma non è il miglior modello per ogni singola attività.
Varianti del Modello e Prezzi
GPT-5.4 viene distribuito in cinque varianti, ciascuna rivolta a diversi casi d'uso e budget:
| Variante | Input (per 1M di token) | Output (per 1M di token) | Ideale Per |
|---|---|---|---|
| GPT-5.4 Standard | $2.50 | $15.00 | General-purpose, uso del computer, workflow agentici |
| GPT-5.4 Thinking | $2.50 | $15.00 | Ragionamento complesso con guida interattiva del piano |
| GPT-5.4 Pro | $30.00 | $180.00 | Legale, medico, finanziario — massima precisione |
| GPT-5.4 Mini | $0.75 | $4.50 | Carichi di lavoro ad alto volume e sensibili alla latenza |
| GPT-5.4 Nano | TBD | TBD | Casi d'uso edge ed embedded |
- I prompt che superano i 272K token vengono addebitati al doppio della tariffa di input standard ($5.00/MTok per la versione Standard).
- Gli endpoint regionali per la residenza dei dati comportano un sovrapprezzo del 10% su tutte le varianti.
- GPT-5.4 Mini è disponibile per gli utenti gratuiti di ChatGPT; Nano è disponibile solo via API.
Confronto dei Costi: GPT-5.4 vs Claude Opus 4.6
Per un tipico carico di lavoro giornaliero:
| GPT-5.4 | Claude Opus 4.6 | |
|---|---|---|
| Costo giornaliero medio | ~$5.50 | ~$10.00 |
| Costo mensile medio | ~$165 | ~$300 |
| Rapporto di costo | 1x | ~1.8x |
GPT-5.4 è circa il 50% più economico di Claude Opus 4.6 per un throughput di token equivalente. La variante Mini spinge questo vantaggio ancora oltre — ottenendo un punteggio del 54.38% su SWE-bench Pro a un costo circa 6 volte inferiore.
GPT-5.4 vs Claude Opus 4.6: Quando Usare Quale?
Questa è la domanda che la maggior parte dei team si pone nell'aprile 2026. La risposta dipende dal carico di lavoro.
Scegli GPT-5.4 Se Hai Bisogno di:
- Automazione desktop e uso del computer — 75.0% su OSWorld contro il 72.7% di Opus 4.6
- Tool calling e orchestrazione API — migliore precisione in meno passaggi su Toolathlon
- Efficienza dei costi — circa la metà del costo per token rispetto a Opus 4.6
- Ragionamento efficiente in termini di token — meno token per problema significano fatture più basse
- Prototipazione rapida — iterazione veloce con meno sovraccarico
Scegli Claude Opus 4.6 Se Hai Bisogno di:
- Refactoring di codice complesso su più file — guida SWE-bench Verified all'80.8%
- Coerenza nel lungo contesto — più forte nel mantenere la qualità su contesti molto lunghi
- Ragionamento astratto e innovativo — vantaggio di 16 punti su ARC-AGI-2
- Ricerca agentica e architettura del codice profonda — eccelle in compiti che richiedono una comprensione profonda
- Qualità della scrittura e sfumature — classificato al primo posto per soddisfazione degli utenti in Chatbot Arena
Sintesi del Confronto Diretto
| Dimensione | Vincitore | Margine |
|---|---|---|
| Uso del Computer (OSWorld) | GPT-5.4 | 75.0% vs 72.7% |
| Coding (SWE-bench Verified) | Claude Opus 4.6 | 80.8% vs ~80% |
| Ragionamento Astratto (ARC-AGI-2) | Claude Opus 4.6 | 68.8% vs 52.9% |
| Tool Calling (Toolathlon) | GPT-5.4 | Meno passaggi, migliore precisione |
| Lavoro Intellettuale (GDPval) | GPT-5.4 | 83% |
| Prezzi | GPT-5.4 | ~50% più economico |
| Soddisfazione Utente | Claude Opus 4.6 | #1 Chatbot Arena |
Come Accedere a GPT-5.4
GPT-5.4 è disponibile attraverso:
- ChatGPT — GPT-5.4 Thinking è il modello predefinito per gli utenti Plus, Pro e Team. Mini è disponibile per gli utenti della versione gratuita.
- OpenAI API — Tutte e cinque le varianti sono accessibili tramite gli endpoint standard di completamento e chat.
- App Codex — Funzionalità complete di uso del computer con l'agente desktop.
- OpenRouter — Accesso di terze parti a tariffe competitive.
computer_use e fornire screenshot come input di immagini. Il modello restituisce azioni strutturate (click, type, scroll) che l'applicazione traduce in eventi di sistema.
FAQ
GPT-5.4 è migliore di Claude Opus 4.6?
Dipende dal compito. GPT-5.4 vince sull'uso del computer, sul tool calling e sull'efficienza dei costi. Claude Opus 4.6 vince sul coding complesso, sul ragionamento astratto e sulla qualità della scrittura. Per la maggior parte dei team, la scelta dipende dal fatto che il carico di lavoro principale sia l'automazione desktop (GPT-5.4) o l'ingegneria del software profonda (Opus 4.6).
Quanto costa GPT-5.4?
Il modello standard costa $2.50 per milione di token di input e $15.00 per milione di token di output. La variante Pro costa $30/$180 per MTok. Mini costa $0.75/$4.50 per MTok. I prompt che superano i 272K token vengono addebitati al doppio della tariffa di input.
GPT-5.4 può davvero usare un computer meglio degli umani?
Sul benchmark OSWorld-Verified, sì — 75.0% contro la baseline umana esperta del 72.4%. Tuttavia, i benchmark misurano categorie di compiti specifiche. L'uso del computer nel mondo reale comporta giudizio, contesto e adattabilità che i benchmark non catturano appieno. È meglio considerarlo sovrumano in compiti desktop strutturati, non una sostituzione totale dell'uso umano del computer.
Qual è la finestra di contesto di GPT-5.4?
Fino a 1.05 milioni di token. Il tier standard è di 272K token. Estendere oltre i 272K raddoppia il costo dei token di input. Il contesto completo di 1M è fondamentale per i workflow agentici che accumulano lunghe cronologie di interazione.
Dovrei passare da GPT-5.3 Codex?
Se il tuo carico di lavoro prevede l'uso del computer o l'orchestrazione di più strumenti, sì. Il salto dal 64.7% al 75.0% su OSWorld è sostanziale. Per compiti di puro coding, il miglioramento rispetto a GPT-5.3 Codex è più incrementale — SWE-bench Pro è passato dal 56.8% al 57.7%. Valuta in base al tuo specifico caso d'uso.
Quali varianti del modello sono disponibili?
Cinque: Standard, Thinking, Pro, Mini e Nano. Standard e Thinking condividono lo stesso prezzo e sono i modelli principali per la maggior parte dei casi d'uso. Pro è il livello premium per la massima precisione. Mini punta a implementazioni in produzione attente ai costi. Nano è progettato per applicazioni edge ed embedded.
In Conclusione
GPT-5.4 segna un vero punto di svolta per gli agenti AI autonomi. È il primo modello general-purpose a battere gli esperti umani nell'uso del computer desktop, e lo fa essendo il 50% più economico del suo principale concorrente. La gamma di cinque varianti significa che esiste un GPT-5.4 per ogni budget e requisito di latenza.
Detto questo, non è il migliore in tutto. Claude Opus 4.6 rimane la scelta più forte per l'ingegneria del software complessa e il ragionamento astratto. Gemini 3.1 Pro guida ancora in diversi benchmark di ragionamento. La risposta corretta per la maggior parte dei team non è "quale modello è il migliore", ma "quale modello è il migliore per questo compito".
Se stai costruendo prodotti basati sull'AI e vuoi sfruttare modelli come GPT-5.4 e Claude Opus 4.6 senza impantanarti nell'infrastruttura, Y Build ti aiuta a spedire più velocemente. Forniamo gli strumenti e la piattaforma per costruire, distribuire e iterare su applicazioni AI — così puoi concentrarti sul prodotto, non sulle tubature.
Fonti: OpenAI GPT-5.4 Announcement, OpenAI API Pricing, NxCode GPT-5.4 Complete Guide, NxCode GPT-5.4 vs Claude Opus 4.6, DataCamp GPT-5.4 Overview, Artificial Analysis GPT-5.4, MindStudio Benchmark Comparison, Nerd Level Tech: GPT-5.4 Beats Humans