Claude Sonnet 4.6: AI di livello Opus al prezzo di Sonnet

TL;DR

Anthropic ha rilasciato Claude Sonnet 4.6 il 17 febbraio 2026. I punti chiave:

79.6% SWE-bench — quasi identico a Opus 4.6 (80.8%) nel coding reale
72.5% OSWorld — essenzialmente alla pari con Opus 4.6 (72.7%) nel computer use, quasi il doppio di GPT-5.2 (38.2%)
$3/$15 per milione di token — invariato rispetto a Sonnet 4.5, 5 volte più economico di Opus
Finestra di contesto da 1M di token (beta) — aumentata da 200K
Ora è il modello predefinito per tutti gli utenti Claude Free e Pro

Gli sviluppatori hanno preferito Sonnet 4.6 rispetto a Sonnet 4.5 nel 70% dei casi in Claude Code, e lo hanno preferito persino a Opus 4.5 nel 59% dei casi.

Cosa ha annunciato Anthropic

Claude Sonnet 4.6 è il secondo importante rilascio di un modello da parte di Anthropic in meno di due settimane (seguendo Opus 4.6 del 6 febbraio). Nel loro post sul blog, Anthropic lo descrive come \"un aggiornamento completo delle abilità del modello nel coding, computer use, ragionamento su contesti lunghi, pianificazione degli agenti, lavoro di conoscenza e design\".

L'affermazione principale: \"Prestazioni che in precedenza avrebbero richiesto un modello di classe Opus — incluso in attività d'ufficio reali ed economicamente rilevanti — sono ora disponibili con Sonnet 4.6\".

Questa è una dichiarazione significativa. Anthropic sta effettivamente dicendo: per la maggior parte dei carichi di lavoro in produzione, non è più necessario pagare per Opus.

Analisi completa dei Benchmark

Dove Sonnet 4.6 eguaglia o supera Opus

Benchmark	Cosa testa	Sonnet 4.6	Opus 4.6	GPT-5.2
SWE-bench Verified	Coding nel mondo reale	79.6%	80.8%	80.0%
OSWorld-Verified	Computer use	72.5%	72.7%	38.2%
GDPval-AA (Elo)	Attività d'ufficio	1633	1606	1462
Finance Agent v1.1	Analisi finanziaria	63.3%	60.1%	59.0%
OfficeQA	Comprensione documenti	Pari a Opus	—	—

Sonnet 4.6 è effettivamente in vantaggio nelle attività d'ufficio e nell'analisi finanziaria — due categorie economicamente rilevanti.

Dove Opus 4.6 mantiene il primato

Benchmark	Cosa testa	Opus 4.6	Sonnet 4.6	Divario
Terminal-Bench 2.0	Coding via terminale con agenti	65.4%	59.1%	6.3%
BrowseComp	Ricerca web con agenti	84.0%	74.7%	9.3%
ARC-AGI-2	Risoluzione di problemi inediti	68.8%	58.3%	10.5%
GPQA Diamond	Ragionamento di livello universitario	91.3%	89.9%	1.4%
MRCR v2 (8-needle 1M)	Ragionamento su contesto lungo	76.0%	—	—

Il pattern è chiaro: Opus vince su compiti che richiedono il ragionamento più profondo e innovativo — refactoring di intere codebase, ricerca multi-fase e problemi che il modello non ha mai visto prima. Sonnet vince su compiti pronti per la produzione e sensibili alla velocità.

Computer Use: il miglioramento più evidente

I numeri relativi al computer use meritano un'attenzione speciale:

Modello	Punteggio OSWorld	Timeline
Sonnet 3.5 (Ott 2024)	14.9%	Lancio iniziale
Sonnet 4.5	61.4%	+46.5%
Sonnet 4.6	72.5%	+11.1%
Opus 4.6	72.7%	Il limite massimo
GPT-5.2	38.2%	Per confronto

In 16 mesi, Sonnet è passato dal 14.9% al 72.5% nel computer use — un miglioramento di 4.9 volte. Jamie Cuffe, CEO di Pace (una società di tecnologia assicurativa), ha riferito che Sonnet 4.6 ha raggiunto il 94% nel loro benchmark interno di computer use: \"Ragiona attraverso i fallimenti e si autocorregge in modi che non avevamo mai visto prima\".

Novità rispetto a Sonnet 4.5

1. Finestra di contesto da 1M di token (Beta)

La finestra di contesto si espande da 200K a 1 milione di token. Ciò significa che intere codebase, lunghi documenti legali o ore di cronologia delle conversazioni possono rientrare in un unico prompt.

Una nuova funzione di compattazione del contesto (anche questa in beta) riassume automaticamente i segmenti di conversazione più vecchi, estendendo ulteriormente il contesto utilizzabile.

2. Migliore capacità di seguire le istruzioni, meno allucinazioni

Questo è ciò che gli sviluppatori hanno notato per primo. Nei test di Claude Code:

Il 70% ha preferito Sonnet 4.6 rispetto a Sonnet 4.5
Il 59% lo ha preferito persino a Opus 4.5 (il modello di punta di novembre 2025)

Miglioramenti specifici citati:

Legge il codice esistente prima di modificarlo (invece di tirare a indovinare)
Consolida la logica invece di duplicarla
Meno false conferme di successo (\"Ho risolto il bug\" quando non l'ha fatto)
Minore over-engineering — non aggiunge astrazioni non necessarie
Migliore completamento di compiti multi-fase

Il co-fondatore di Cursor lo ha definito \"un notevole miglioramento rispetto a Sonnet 4.5 su tutta la linea, inclusi compiti a lungo orizzonte e problemi più difficili\". GitHub ha riportato \"forti tassi di risoluzione e il tipo di coerenza di cui gli sviluppatori hanno bisogno\" su correzioni complesse attraverso più codebase.

3. Il Computer Use diventa pronto per la produzione

Il salto dal 61.4% al 72.5% su OSWorld supera una soglia critica. Gli utenti descrivono una \"capacità a livello umano in compiti come la navigazione in fogli di calcolo complessi o la compilazione di moduli web multi-fase\".

Sonnet 4.6 è migliorato significativamente anche nella resistenza alle prompt injection per il computer use — performando ai livelli di Opus 4.6. Questo è fondamentale per qualsiasi agente che navighi sul web o processi input non affidabili.

4. Extended Thinking + Adaptive Thinking

Entrambi sono supportati, consentendo al modello di allocare più potenza di calcolo ai problemi più difficili. Ma, significativamente, Sonnet 4.6 offre prestazioni elevate anche senza l'extended thinking abilitato — il modello di base è fondamentalmente migliore.

5. Aggiornamento del piano gratuito

Gli utenti Claude Free ora hanno Sonnet 4.6 come impostazione predefinita, oltre a:

Capacità di creazione di file

Connector (integrazioni con dati esterni)

Skills (istruzioni riutilizzabili)

Compattazione del contesto

Questo è il piano AI gratuito più capace disponibile tra tutti i principali fornitori.

6. Connettori MCP in Excel

Claude in Excel ora supporta i connettori per S&P Global, LSEG, Daloopa, PitchBook, Moody's e FactSet — importando dati finanziari in tempo reale direttamente nei fogli di calcolo.

Prezzi

Nessun cambiamento di prezzo rispetto a Sonnet 4.5:

Piano	Prezzo
claude.ai Free	$0 (Sonnet 4.6 predefinito, limiti di utilizzo)
claude.ai Pro	$20/mese (limiti più alti, accesso a Opus)
API input	$3 per milione di token
API output	$15 per milione di token

Per confronto:

API Opus 4.6: $15/$75 per milione di token (5 volte di più)

API GPT-5.2: $5/$15 per milione di token (1.7 volte di più in input)

API Gemini 3 Pro: $7/$21 per milione di token (2.3 volte di più in input)

Costo per sessione di Claude Code

Per una tipica sessione di coding (100K token di input + 20K di output):

Modello	Costo per sessione
Sonnet 4.6	$0.60
GPT-5.2	$0.80
Opus 4.6	$3.00

Un team che esegue 100 sessioni di agenti al giorno risparmia circa $240 al giorno utilizzando Sonnet 4.6 invece di Opus.

Come accedere

claude.ai

Già predefinito. Apri claude.ai → stai usando Sonnet 4.6.

Claude Code

bash

claude  # Sonnet 4.6 è ora il predefinito
claude --model claude-sonnet-4-6-20250217  # selezione esplicita

API

ID Modello: claude-sonnet-4-6-20250217

python

import anthropic

client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-sonnet-4-6-20250217",
    max_tokens=4096,
    messages=[{"role": "user", "content": "Il tuo prompt qui"}]
)

Piattaforme Cloud

Disponibile su Amazon Bedrock e Google Cloud Vertex AI dal primo giorno.

Contesto del settore

Sonnet 4.6 è il secondo rilascio principale di Anthropic in 11 giorni (dopo Opus 4.6 il 6 febbraio). CNBC ha descritto il ritmo come una \"continua velocità vertiginosa di rilascio di modelli AI\". VentureBeat l'ha definito \"un evento sismico di riprezzamento per l'industria dell'IA\".

La tendenza generale: il livello minimo di prestazioni sta salendo. Ciò che richiedeva un modello di punta da $15/$75 sei mesi fa, ora viene offerto a $3/$15. Per chi sviluppa prodotti AI, questo significa:

Le funzionalità AI costano 5 volte meno per essere eseguite
Gli agenti di computer use sono economicamente sostenibili su vasta scala
Il modello non è più il collo di bottiglia — lo è la distribuzione del prodotto

Stai sviluppando con Claude Sonnet 4.6? Y Build si integra con Claude Code per lo sviluppo assistito dall'IA, gestendo poi il deployment, i video prodotto Demo Cut, l'IA SEO e l'analisi dei dati — l'intero stack dal codice alla crescita. Inizia gratuitamente.

Fonti: