Gemini 3.1 Pro: Spiegazione del salto di qualità nel ragionamento di Google

TL;DR

Google ha rilasciato Gemini 3.1 Pro (preview) il 19 febbraio 2026. I numeri chiave:

ARC-AGI-2: 77,1% — più del doppio rispetto a Gemini 3 Pro (31,1%), supera Opus 4.6 (68,8%) e GPT-5.2 (52,9%)
GPQA Diamond: 94,3% — guida tutti i modelli nelle scienze a livello post-laurea
SWE-bench: 80,6% — eguaglia Opus 4.6 (80,8%) nel coding
Prezzo: $2/$12 per M token — il modello di frontiera più economico
Contesto da 1M di token — invariato rispetto a Gemini 3 Pro
In testa su 13 dei 16 benchmark valutati da Google
Disponibile ora in preview: AI Studio, Vertex AI, Gemini CLI, app Gemini

Cosa ha annunciato Google

Il 19 febbraio 2026, Google ha rilasciato Gemini 3.1 Pro — il primo incremento ".1" nella numerazione delle versioni dei loro modelli. Si basa su Gemini 3 Pro (novembre 2025) integrando tecniche della serie Gemini 3 Deep Think in un modello più accessibile e veloce.

Il blog di Google lo descrive come progettato per "compiti in cui una risposta semplice non è sufficiente" — ragionamento complesso multi-fase, sintesi dei dati e flussi di lavoro agentici.

La statistica principale: 77,1% su ARC-AGI-2, il benchmark per il ragionamento astratto inedito. È più del doppio del 31,1% di Gemini 3 Pro e significativamente avanti sia rispetto a Opus 4.6 (68,8%) che a GPT-5.2 (52,9%). VentureBeat lo definisce "un Deep Think Mini con ragionamento regolabile su richiesta".

Analisi completa dei benchmark

Dove Gemini 3.1 Pro è in testa (13 su 16 benchmark)

Benchmark	Cosa testa	Gemini 3.1 Pro	Miglior concorrente
ARC-AGI-2	Ragionamento inedito	77,1%	Opus 4.6: 68,8%
GPQA Diamond	Scienza post-laurea	94,3%	GPT-5.2: 92,4%
BrowseComp	Ricerca web agentica	85,9%	Opus 4.6: 84,0%
Terminal-Bench 2.0	Coding da terminale	68,5%	Opus 4.6: 65,4%
APEX-Agents	Capacità degli agenti	33,5%	Opus 4.6: 29,8%
MCP Atlas	Utilizzo di strumenti	69,2%	—
t2-bench Telecom	Specifico del dominio	99,3%	—
SWE-bench Verified	Coding	80,6%	Opus 4.6: 80,8%
MRCR v2	Contesto lungo	84,9%	Sonnet 4.6: 84,9% (pareggio)

Dove i concorrenti vincono ancora

Benchmark	Cosa testa	Vincitore	Gemini 3.1 Pro
GDPval-AA (Elo)	Attività d'ufficio	Sonnet 4.6: 1633	Non divulgato
Terminal-Bench 2.0	Coding intensivo da terminale	GPT-5.3-Codex: 77,3%	68,5%
SWE-Bench Pro	Coding avanzato	GPT-5.3-Codex: 56,8%	Non divulgato
OSWorld	Uso del computer	Sonnet 4.6: 72,5%	Non testato

Il salto nel ragionamento nel contesto

ARC-AGI-2 misura la capacità di un modello di risolvere problemi mai visti prima — puro ragionamento astratto, non pattern matching dai dati di addestramento. Ecco quanto velocemente Gemini è migliorato:

Modello	ARC-AGI-2	Data
Gemini 3 Pro	31,1%	Nov 2025
GPT-5.2	52,9%	Dic 2025
Claude Opus 4.6	68,8%	Feb 2026
Gemini 3.1 Pro	77,1%	Feb 2026

Gemini 3.1 Pro è passato dal 31,1% al 77,1% in una sola versione — un miglioramento del 148%. Questo deriva dall'integrazione delle tecniche di ragionamento esteso di Deep Think nel modello base.

Cosa è cambiato rispetto a Gemini 3 Pro

1. Integrazione di Deep Think

Gemini 3 Deep Think era un modello separato e più lento, ottimizzato per il ragionamento esteso. Gemini 3.1 Pro integra tali tecniche nel modello standard, con profondità di ragionamento regolabile. Si ottiene un ragionamento di livello Deep Think senza la relativa latenza per la maggior parte dei compiti.

2. Ragionamento drasticamente migliore

I numeri parlano da soli:

Benchmark	Gemini 3 Pro	Gemini 3.1 Pro	Miglioramento
ARC-AGI-2	31,1%	77,1%	+148%
GPQA Diamond	~88%	94,3%	+7%
APEX-Agents	18,4%	33,5%	+82%

3. Migliori prestazioni agentiche

I punteggi di APEX-Agents (33,5%) e MCP Atlas (69,2%) mostrano che Gemini 3.1 Pro è significativamente più capace come agente autonomo — l'uso di strumenti, la pianificazione multi-fase e l'auto-correzione sono tutti migliorati.

4. Forza multimodale mantenuta

Gemini 3.1 Pro mantiene il vantaggio principale di Gemini: l'elaborazione multimodale nativa di testo, immagini, audio e video all'interno di un unico contesto. Nessun altro modello di frontiera eguaglia questa ampiezza a questo prezzo.

Prezzi

Stesso prezzo di Gemini 3 Pro — un aggiornamento gratuito:

Dimensione del contesto	Input (per M token)	Output (per M token)
≤200K token	$2,00	$12,00
>200K token	$4,00	$18,00

Confronto con i concorrenti

Modello	Input	Output	Costo relativo
Gemini 3.1 Pro	$2,00	$12,00	1x
Claude Sonnet 4.6	$3,00	$15,00	1,5x
GPT-5.2	$5,00	$15,00	2,0x (input)
Claude Opus 4.6	$15,00	$75,00	7,5x

Gemini 3.1 Pro è il modello di frontiera più economico — il 33% più economico di Sonnet 4.6 sull'input e il 20% più economico sull'output.

Costo per sessione (100K in + 20K out)

Modello	Costo
Gemini 3.1 Pro	$0,44
Claude Sonnet 4.6	$0,60
GPT-5.2	$0,80
Claude Opus 4.6	$3,00

Ulteriore ottimizzazione dei costi:

Modalità batch: sconto del 50% ($0,22/sessione)

Caching del contesto: le letture di input memorizzate nella cache costano il 10% del prezzo base

Disponibilità

Dove usarlo

Piattaforma	Stato	ID Modello
App Gemini (consumer)	In fase di rilascio	Selezione automatica
Google AI Studio	Disponibile ora	`gemini-3.1-pro-preview`
Vertex AI	Disponibile ora	`gemini-3.1-pro-preview`
Gemini API	Disponibile ora	`gemini-3.1-pro-preview`
Gemini CLI	Disponibile ora	`gemini-3.1-pro-preview`
Antigravity	Disponibile ora	Selezione automatica
Android Studio	Disponibile ora	Selezione automatica
GitHub Copilot	Public preview	Selezionabile
NotebookLM	Abbonati Pro/Ultra	Selezione automatica

Guida rapida API

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Endpoint per strumenti personalizzati

Google ha anche lanciato un endpoint specializzato per migliori prestazioni degli strumenti:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Usa questo endpoint quando crei agenti che fanno affidamento intensivo su function calling e uso di strumenti.

Cosa significa tutto questo

La corsa al ragionamento si scalda

Tre modelli di frontiera rilasciati in 13 giorni:

6 feb: Claude Opus 4.6 (Anthropic)

17 feb: Claude Sonnet 4.6 (Anthropic)

19 feb: Gemini 3.1 Pro (Google)

Ognuno rivendica la leadership in aree diverse. Il panorama dei modelli si sta frammentando — nessun singolo modello domina più su tutto.

Ragionamento ai vertici della categoria a prezzi convenienti

Il 77,1% di Gemini 3.1 Pro su ARC-AGI-2 è il punteggio di ragionamento più alto disponibile, al prezzo più basso ($2/$12). Per i compiti che richiedono risoluzione di problemi inediti, ragionamento astratto o analisi scientifica, è la scelta chiara.

Parità nel coding

Con l'80,6% su SWE-bench (rispetto all'80,8% di Opus 4.6 e al 79,6% di Sonnet 4.6), Gemini 3.1 Pro è ora competitivo nel coding per la prima volta. I precedenti modelli Gemini erano significativamente indietro rispetto a Claude in questo benchmark.

Il pezzo mancante: Computer Use

Gemini 3.1 Pro non presenta benchmark su OSWorld (uso del computer). Claude Sonnet 4.6 guida con il 72,5% in questa capacità. Se il tuo flusso di lavoro prevede automazione del browser, compilazione di moduli o controllo del desktop, Claude rimane l'unica opzione praticabile.

Per gli sviluppatori che creano prodotti

Le implicazioni pratiche:

Ragionamento più economico: $0,44/sessione contro $0,60 (Sonnet) e $0,80 (GPT-5.2)

Il migliore per compiti scientifici/analitici: il 94,3% su GPQA Diamond è il punteggio più alto disponibile

Competitivo nel coding: l'80,6% su SWE-bench colma il divario con Claude

Vantaggio multimodale: elaborazione nativa di video/audio che Claude e GPT non eguagliano

Stato di preview: non ancora GA — aspettatevi miglioramenti prima della disponibilità generale

Stai costruendo con l'IA? Y Build si integra con i tuoi strumenti IA preferiti per lo sviluppo, gestendo poi il deployment, i video prodotto Demo Cut, l'IA SEO e gli analytics — l'intero stack dal codice alla crescita. Inizia gratuitamente.

Fonti:

TL;DR

Google ha rilasciato Gemini 3.1 Pro (preview) il 19 febbraio 2026. I numeri chiave:

ARC-AGI-2: 77,1% — più del doppio rispetto a Gemini 3 Pro (31,1%), supera Opus 4.6 (68,8%) e GPT-5.2 (52,9%)
GPQA Diamond: 94,3% — guida tutti i modelli nelle scienze a livello post-laurea
SWE-bench: 80,6% — eguaglia Opus 4.6 (80,8%) nel coding
Prezzo: $2/$12 per M token — il modello di frontiera più economico
Contesto da 1M di token — invariato rispetto a Gemini 3 Pro
In testa su 13 dei 16 benchmark valutati da Google
Disponibile ora in preview: AI Studio, Vertex AI, Gemini CLI, app Gemini

Cosa ha annunciato Google

Il blog di Google lo descrive come progettato per "compiti in cui una risposta semplice non è sufficiente" — ragionamento complesso multi-fase, sintesi dei dati e flussi di lavoro agentici.

Analisi completa dei benchmark

Dove Gemini 3.1 Pro è in testa (13 su 16 benchmark)

Benchmark	Cosa testa	Gemini 3.1 Pro	Miglior concorrente
ARC-AGI-2	Ragionamento inedito	77,1%	Opus 4.6: 68,8%
GPQA Diamond	Scienza post-laurea	94,3%	GPT-5.2: 92,4%
BrowseComp	Ricerca web agentica	85,9%	Opus 4.6: 84,0%
Terminal-Bench 2.0	Coding da terminale	68,5%	Opus 4.6: 65,4%
APEX-Agents	Capacità degli agenti	33,5%	Opus 4.6: 29,8%
MCP Atlas	Utilizzo di strumenti	69,2%	—
t2-bench Telecom	Specifico del dominio	99,3%	—
SWE-bench Verified	Coding	80,6%	Opus 4.6: 80,8%
MRCR v2	Contesto lungo	84,9%	Sonnet 4.6: 84,9% (pareggio)

Dove i concorrenti vincono ancora

Benchmark	Cosa testa	Vincitore	Gemini 3.1 Pro
GDPval-AA (Elo)	Attività d'ufficio	Sonnet 4.6: 1633	Non divulgato
Terminal-Bench 2.0	Coding intensivo da terminale	GPT-5.3-Codex: 77,3%	68,5%
SWE-Bench Pro	Coding avanzato	GPT-5.3-Codex: 56,8%	Non divulgato
OSWorld	Uso del computer	Sonnet 4.6: 72,5%	Non testato

Il salto nel ragionamento nel contesto

Modello	ARC-AGI-2	Data
Gemini 3 Pro	31,1%	Nov 2025
GPT-5.2	52,9%	Dic 2025
Claude Opus 4.6	68,8%	Feb 2026
Gemini 3.1 Pro	77,1%	Feb 2026

Gemini 3.1 Pro è passato dal 31,1% al 77,1% in una sola versione — un miglioramento del 148%. Questo deriva dall'integrazione delle tecniche di ragionamento esteso di Deep Think nel modello base.

Cosa è cambiato rispetto a Gemini 3 Pro

1. Integrazione di Deep Think

2. Ragionamento drasticamente migliore

I numeri parlano da soli:

Benchmark	Gemini 3 Pro	Gemini 3.1 Pro	Miglioramento
ARC-AGI-2	31,1%	77,1%	+148%
GPQA Diamond	~88%	94,3%	+7%
APEX-Agents	18,4%	33,5%	+82%

3. Migliori prestazioni agentiche

4. Forza multimodale mantenuta

Prezzi

Stesso prezzo di Gemini 3 Pro — un aggiornamento gratuito:

Dimensione del contesto	Input (per M token)	Output (per M token)
≤200K token	$2,00	$12,00
>200K token	$4,00	$18,00

Confronto con i concorrenti

Modello	Input	Output	Costo relativo
Gemini 3.1 Pro	$2,00	$12,00	1x
Claude Sonnet 4.6	$3,00	$15,00	1,5x
GPT-5.2	$5,00	$15,00	2,0x (input)
Claude Opus 4.6	$15,00	$75,00	7,5x

Gemini 3.1 Pro è il modello di frontiera più economico — il 33% più economico di Sonnet 4.6 sull'input e il 20% più economico sull'output.

Costo per sessione (100K in + 20K out)

Modello	Costo
Gemini 3.1 Pro	$0,44
Claude Sonnet 4.6	$0,60
GPT-5.2	$0,80
Claude Opus 4.6	$3,00

Ulteriore ottimizzazione dei costi:

Modalità batch: sconto del 50% ($0,22/sessione)

Caching del contesto: le letture di input memorizzate nella cache costano il 10% del prezzo base

Disponibilità

Dove usarlo

Piattaforma	Stato	ID Modello
App Gemini (consumer)	In fase di rilascio	Selezione automatica
Google AI Studio	Disponibile ora	`gemini-3.1-pro-preview`
Vertex AI	Disponibile ora	`gemini-3.1-pro-preview`
Gemini API	Disponibile ora	`gemini-3.1-pro-preview`
Gemini CLI	Disponibile ora	`gemini-3.1-pro-preview`
Antigravity	Disponibile ora	Selezione automatica
Android Studio	Disponibile ora	Selezione automatica
GitHub Copilot	Public preview	Selezionabile
NotebookLM	Abbonati Pro/Ultra	Selezione automatica

Guida rapida API

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Endpoint per strumenti personalizzati

Google ha anche lanciato un endpoint specializzato per migliori prestazioni degli strumenti:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Usa questo endpoint quando crei agenti che fanno affidamento intensivo su function calling e uso di strumenti.

Cosa significa tutto questo

La corsa al ragionamento si scalda

Tre modelli di frontiera rilasciati in 13 giorni:

6 feb: Claude Opus 4.6 (Anthropic)

17 feb: Claude Sonnet 4.6 (Anthropic)

19 feb: Gemini 3.1 Pro (Google)

Ognuno rivendica la leadership in aree diverse. Il panorama dei modelli si sta frammentando — nessun singolo modello domina più su tutto.

Ragionamento ai vertici della categoria a prezzi convenienti

Parità nel coding

Il pezzo mancante: Computer Use

Per gli sviluppatori che creano prodotti

Le implicazioni pratiche:

Ragionamento più economico: $0,44/sessione contro $0,60 (Sonnet) e $0,80 (GPT-5.2)

Il migliore per compiti scientifici/analitici: il 94,3% su GPQA Diamond è il punteggio più alto disponibile

Competitivo nel coding: l'80,6% su SWE-bench colma il divario con Claude

Vantaggio multimodale: elaborazione nativa di video/audio che Claude e GPT non eguagliano

Stato di preview: non ancora GA — aspettatevi miglioramenti prima della disponibilità generale

Fonti: