Guida a GPT-5.4: Il modello ad agenti autonomi di OpenAI (2026)

TL;DR

OpenAI ha rilasciato GPT-5.4 il 5 marzo 2026 — il primo modello general-purpose a superare gli esseri umani nell'uso autonomo del computer. Statistiche chiave:

Caratteristica	Dettaglio
Verificato da OSWorld	75.0% — supera la baseline umana (72.4%)
SWE-bench Pro	57.7% — coding solido, ma segue Claude Opus 4.6 (80.8%)
Finestra di Contesto	Fino a 1.05M di token (272K standard, 1M estesa)
Uso del Computer	Nativo, allo stato dell'arte — il primo integrato in un modello generale
Efficienza dei Token	Significativamente meno token rispetto a GPT-5.2 per compiti equivalenti
Prezzo API	$2.50 input / $15.00 output per 1M di token
Varianti	Standard, Thinking, Pro, Mini, Nano
Pensiero Interattivo	Piano iniziale + guida a metà risposta

Cos'è GPT-5.4?

GPT-5.4 è il modello linguistico di punta di OpenAI, rilasciato il 5 marzo 2026. Combina il meglio della forza nel coding di GPT-5.3 Codex con capacità rivoluzionarie di uso autonomo del computer, una finestra di contesto da 1 milione di token e un nuovo sistema di pensiero interattivo.

Il titolo principale: GPT-5.4 è il primo modello AI general-purpose a superare le prestazioni umane nelle attività su computer desktop. Ottiene un punteggio del 75.0% su OSWorld-Verified — un benchmark in cui i tester umani esperti ottengono il 72.4%. Nessun altro modello aveva superato chiaramente quella soglia in precedenza.

Si tratta di un miglioramento di 28 punti rispetto a GPT-5.2 (47.3%) in meno di quattro mesi. Il modello può analizzare le coordinate dello schermo dagli screenshot e impartire direttamente comandi di mouse e tastiera, permettendogli di navigare tra file, browser, terminali e software di produttività in modo autonomo.

Caratteristiche Chiave

Uso Nativo del Computer

A differenza dei modelli precedenti che necessitavano di strumenti esterni per il controllo del computer, GPT-5.4 ha funzionalità di uso del computer integrate. Nell'app Codex e tramite API, il modello può:

Navigare in ambienti desktop attraverso screenshot e azioni di tastiera/mouse
Operare su più applicazioni in sequenza
Completare workflow multi-step (gestione file, attività nel browser, operazioni da terminale)
Gestire software di produttività come fogli di calcolo, presentazioni e documenti

Finestra di Contesto da 1 Milione di Token

GPT-5.4 supporta fino a 1.05M di token di contesto. La finestra standard è di 272K token; le richieste che superano questa soglia vengono elaborate a una tariffa di input doppia rispetto alla normale. Questo contesto massivo è fondamentale per i workflow agentici in cui il modello deve tenere in memoria lunghe cronologie di utilizzo di strumenti, codebase estese o set di documenti prolungati.

Pensiero Interattivo

GPT-5.4 Thinking introduce un nuovo paradigma: il modello fornisce un piano iniziale del suo ragionamento e l'utente può guidarlo a metà risposta. È possibile aggiungere istruzioni, correggere la rotta o affinare la direzione senza ricominciare da capo. Si tratta di un miglioramento significativo dell'esperienza utente per compiti complessi e multi-fase.

Migliore Efficienza dei Token

OpenAI riferisce che GPT-5.4 utilizza significativamente meno token per risolvere i problemi rispetto a GPT-5.2, insieme a una riduzione del 33% degli errori fattuali. Per le implementazioni in produzione, ciò significa costi inferiori per attività ancora prima di considerare i prezzi competitivi.

Benchmark

Dove GPT-5.4 è in Testa

Benchmark	Cosa Testa	GPT-5.4	Miglior Concorrente
OSWorld-Verified	Uso del computer desktop	75.0%	Claude Opus 4.6: 72.7%
Toolathlon	Uso di strumenti/API multi-step	Punteggio massimo	—
GDPval	Lavoro intellettuale	83%	—

Confronto Completo dei Modelli

Benchmark	GPT-5.4	Claude Opus 4.6	Gemini 3.1 Pro
OSWorld-Verified	75.0%	72.7%	N/A
SWE-bench Verified	~80%	80.8%	80.6%
SWE-bench Pro	57.7%	~45%	54.2%
ARC-AGI-2	52.9%	68.8%	77.1%
GDPval	83%	—	—

Cosa Significano i Numeri

GPT-5.4 è il primo modello che gestisce in modo credibile l'uso del computer, il coding e il lavoro intellettuale a livello di frontiera simultaneamente. Il punteggio del 75% su OSWorld è il traguardo più chiaro — significa che il modello può completare tre attività desktop reali su quattro che persino gli esperti umani trovano impegnative.

Tuttavia, il quadro è sfumato. Su SWE-bench Verified (coding nel mondo reale), sia Claude Opus 4.6 che Gemini 3.1 Pro superano significativamente GPT-5.4 rispettivamente con l'80.8% e l'80.6%. Nel ragionamento astratto (ARC-AGI-2), GPT-5.4 segue Claude Opus 4.6 di 16 punti percentuali e Gemini 3.1 Pro di oltre 24 punti.

Il risultato: GPT-5.4 vince sul controllo autonomo del computer e sull'uso pratico degli strumenti, ma non è il miglior modello per ogni singola attività.

Varianti del Modello e Prezzi

GPT-5.4 viene distribuito in cinque varianti, ciascuna rivolta a diversi casi d'uso e budget:

Variante	Input (per 1M di token)	Output (per 1M di token)	Ideale Per
GPT-5.4 Standard	$2.50	$15.00	General-purpose, uso del computer, workflow agentici
GPT-5.4 Thinking	$2.50	$15.00	Ragionamento complesso con guida interattiva del piano
GPT-5.4 Pro	$30.00	$180.00	Legale, medico, finanziario — massima precisione
GPT-5.4 Mini	$0.75	$4.50	Carichi di lavoro ad alto volume e sensibili alla latenza
GPT-5.4 Nano	TBD	TBD	Casi d'uso edge ed embedded

Note importanti sui prezzi:

I prompt che superano i 272K token vengono addebitati al doppio della tariffa di input standard ($5.00/MTok per la versione Standard).
Gli endpoint regionali per la residenza dei dati comportano un sovrapprezzo del 10% su tutte le varianti.
GPT-5.4 Mini è disponibile per gli utenti gratuiti di ChatGPT; Nano è disponibile solo via API.

Confronto dei Costi: GPT-5.4 vs Claude Opus 4.6

Per un tipico carico di lavoro giornaliero:

GPT-5.4	Claude Opus 4.6
Costo giornaliero medio	~$5.50	~$10.00
Costo mensile medio	~$165	~$300
Rapporto di costo	1x	~1.8x

GPT-5.4 è circa il 50% più economico di Claude Opus 4.6 per un throughput di token equivalente. La variante Mini spinge questo vantaggio ancora oltre — ottenendo un punteggio del 54.38% su SWE-bench Pro a un costo circa 6 volte inferiore.

GPT-5.4 vs Claude Opus 4.6: Quando Usare Quale?

Questa è la domanda che la maggior parte dei team si pone nell'aprile 2026. La risposta dipende dal carico di lavoro.

Scegli GPT-5.4 Se Hai Bisogno di:

Automazione desktop e uso del computer — 75.0% su OSWorld contro il 72.7% di Opus 4.6
Tool calling e orchestrazione API — migliore precisione in meno passaggi su Toolathlon
Efficienza dei costi — circa la metà del costo per token rispetto a Opus 4.6
Ragionamento efficiente in termini di token — meno token per problema significano fatture più basse
Prototipazione rapida — iterazione veloce con meno sovraccarico

Scegli Claude Opus 4.6 Se Hai Bisogno di:

Refactoring di codice complesso su più file — guida SWE-bench Verified all'80.8%
Coerenza nel lungo contesto — più forte nel mantenere la qualità su contesti molto lunghi
Ragionamento astratto e innovativo — vantaggio di 16 punti su ARC-AGI-2
Ricerca agentica e architettura del codice profonda — eccelle in compiti che richiedono una comprensione profonda
Qualità della scrittura e sfumature — classificato al primo posto per soddisfazione degli utenti in Chatbot Arena

Sintesi del Confronto Diretto

Dimensione	Vincitore	Margine
Uso del Computer (OSWorld)	GPT-5.4	75.0% vs 72.7%
Coding (SWE-bench Verified)	Claude Opus 4.6	80.8% vs ~80%
Ragionamento Astratto (ARC-AGI-2)	Claude Opus 4.6	68.8% vs 52.9%
Tool Calling (Toolathlon)	GPT-5.4	Meno passaggi, migliore precisione
Lavoro Intellettuale (GDPval)	GPT-5.4	83%
Prezzi	GPT-5.4	~50% più economico
Soddisfazione Utente	Claude Opus 4.6	#1 Chatbot Arena

Come Accedere a GPT-5.4

GPT-5.4 è disponibile attraverso:

ChatGPT — GPT-5.4 Thinking è il modello predefinito per gli utenti Plus, Pro e Team. Mini è disponibile per gli utenti della versione gratuita.
OpenAI API — Tutte e cinque le varianti sono accessibili tramite gli endpoint standard di completamento e chat.
App Codex — Funzionalità complete di uso del computer con l'agente desktop.
OpenRouter — Accesso di terze parti a tariffe competitive.

Per utilizzare le funzioni di uso del computer tramite API, è necessario abilitare il parametro dello strumento computer_use e fornire screenshot come input di immagini. Il modello restituisce azioni strutturate (click, type, scroll) che l'applicazione traduce in eventi di sistema.

FAQ

GPT-5.4 è migliore di Claude Opus 4.6?

Dipende dal compito. GPT-5.4 vince sull'uso del computer, sul tool calling e sull'efficienza dei costi. Claude Opus 4.6 vince sul coding complesso, sul ragionamento astratto e sulla qualità della scrittura. Per la maggior parte dei team, la scelta dipende dal fatto che il carico di lavoro principale sia l'automazione desktop (GPT-5.4) o l'ingegneria del software profonda (Opus 4.6).

Quanto costa GPT-5.4?

Il modello standard costa $2.50 per milione di token di input e $15.00 per milione di token di output. La variante Pro costa $30/$180 per MTok. Mini costa $0.75/$4.50 per MTok. I prompt che superano i 272K token vengono addebitati al doppio della tariffa di input.

GPT-5.4 può davvero usare un computer meglio degli umani?

Sul benchmark OSWorld-Verified, sì — 75.0% contro la baseline umana esperta del 72.4%. Tuttavia, i benchmark misurano categorie di compiti specifiche. L'uso del computer nel mondo reale comporta giudizio, contesto e adattabilità che i benchmark non catturano appieno. È meglio considerarlo sovrumano in compiti desktop strutturati, non una sostituzione totale dell'uso umano del computer.

Qual è la finestra di contesto di GPT-5.4?

Fino a 1.05 milioni di token. Il tier standard è di 272K token. Estendere oltre i 272K raddoppia il costo dei token di input. Il contesto completo di 1M è fondamentale per i workflow agentici che accumulano lunghe cronologie di interazione.

Dovrei passare da GPT-5.3 Codex?

Se il tuo carico di lavoro prevede l'uso del computer o l'orchestrazione di più strumenti, sì. Il salto dal 64.7% al 75.0% su OSWorld è sostanziale. Per compiti di puro coding, il miglioramento rispetto a GPT-5.3 Codex è più incrementale — SWE-bench Pro è passato dal 56.8% al 57.7%. Valuta in base al tuo specifico caso d'uso.

Quali varianti del modello sono disponibili?

Cinque: Standard, Thinking, Pro, Mini e Nano. Standard e Thinking condividono lo stesso prezzo e sono i modelli principali per la maggior parte dei casi d'uso. Pro è il livello premium per la massima precisione. Mini punta a implementazioni in produzione attente ai costi. Nano è progettato per applicazioni edge ed embedded.

In Conclusione

GPT-5.4 segna un vero punto di svolta per gli agenti AI autonomi. È il primo modello general-purpose a battere gli esperti umani nell'uso del computer desktop, e lo fa essendo il 50% più economico del suo principale concorrente. La gamma di cinque varianti significa che esiste un GPT-5.4 per ogni budget e requisito di latenza.

Detto questo, non è il migliore in tutto. Claude Opus 4.6 rimane la scelta più forte per l'ingegneria del software complessa e il ragionamento astratto. Gemini 3.1 Pro guida ancora in diversi benchmark di ragionamento. La risposta corretta per la maggior parte dei team non è "quale modello è il migliore", ma "quale modello è il migliore per questo compito".

Se stai costruendo prodotti basati sull'AI e vuoi sfruttare modelli come GPT-5.4 e Claude Opus 4.6 senza impantanarti nell'infrastruttura, Y Build ti aiuta a spedire più velocemente. Forniamo gli strumenti e la piattaforma per costruire, distribuire e iterare su applicazioni AI — così puoi concentrarti sul prodotto, non sulle tubature.

Fonti: OpenAI GPT-5.4 Announcement, OpenAI API Pricing, NxCode GPT-5.4 Complete Guide, NxCode GPT-5.4 vs Claude Opus 4.6, DataCamp GPT-5.4 Overview, Artificial Analysis GPT-5.4, MindStudio Benchmark Comparison, Nerd Level Tech: GPT-5.4 Beats Humans