Gemini 3.1 Pro : le bond en avant de Google en matière de raisonnement expliqué

TL;DR

Google a lancé Gemini 3.1 Pro (preview) le 19 février 2026. Les chiffres clés :

ARC-AGI-2 : 77,1 % — plus du double de Gemini 3 Pro (31,1 %), bat Opus 4.6 (68,8 %) et GPT-5.2 (52,9 %)
GPQA Diamond : 94,3 % — en tête de tous les modèles pour les sciences de niveau universitaire
SWE-bench : 80,6 % — égale Opus 4.6 (80,8 %) en programmation
Prix : 2 $/12 $ par M de tokens — le modèle de pointe (frontier model) le moins cher
Contexte de 1 M de tokens — inchangé par rapport à Gemini 3 Pro
En tête sur 13 des 16 benchmarks évalués par Google
Disponible dès maintenant en preview : AI Studio, Vertex AI, Gemini CLI, application Gemini

Ce que Google a annoncé

Le 19 février 2026, Google a lancé Gemini 3.1 Pro — le premier incrément en « .1 » dans la version de leur modèle. Il s'appuie sur Gemini 3 Pro (novembre 2025) en intégrant des techniques de la série Gemini 3 Deep Think dans un modèle plus accessible et plus rapide.

Le blog de Google le décrit comme étant conçu pour « les tâches où une réponse simple ne suffit pas » — raisonnement complexe en plusieurs étapes, synthèse de données et flux de travail agentiques.

La statistique phare : 77,1 % sur ARC-AGI-2, le benchmark de référence pour le raisonnement abstrait inédit. C'est plus du double des 31,1 % de Gemini 3 Pro, et nettement devant Opus 4.6 (68,8 %) et GPT-5.2 (52,9 %). VentureBeat le qualifie de « Deep Think Mini avec raisonnement ajustable à la demande ».

Analyse complète des benchmarks

Là où Gemini 3.1 Pro mène (13 des 16 benchmarks)

Benchmark	Ce qu'il teste	Gemini 3.1 Pro	Meilleur concurrent
ARC-AGI-2	Raisonnement inédit	77,1 %	Opus 4.6 : 68,8 %
GPQA Diamond	Sciences (niveau master/doctorat)	94,3 %	GPT-5.2 : 92,4 %
BrowseComp	Recherche web agentique	85,9 %	Opus 4.6 : 84,0 %
Terminal-Bench 2.0	Code dans le terminal	68,5 %	Opus 4.6 : 65,4 %
APEX-Agents	Capacités des agents	33,5 %	Opus 4.6 : 29,8 %
MCP Atlas	Utilisation d'outils	69,2 %	—
t2-bench Telecom	Spécifique au domaine	99,3 %	—
SWE-bench Verified	Programmation	80,6 %	Opus 4.6 : 80,8 %
MRCR v2	Long contexte	84,9 %	Sonnet 4.6 : 84,9 % (égalité)

Là où les concurrents gagnent encore

Benchmark	Ce qu'il teste	Vainqueur	Gemini 3.1 Pro
GDPval-AA (Elo)	Tâches de bureau	Sonnet 4.6 : 1633	Non divulgué
Terminal-Bench 2.0	Code intensif dans le terminal	GPT-5.3-Codex : 77,3 %	68,5 %
SWE-Bench Pro	Programmation avancée	GPT-5.3-Codex : 56,8 %	Non divulgué
OSWorld	Utilisation de l'ordinateur	Sonnet 4.6 : 72,5 %	Non testé

Le bond en avant du raisonnement en contexte

ARC-AGI-2 mesure la capacité d'un modèle à résoudre des problèmes qu'il n'a jamais vus auparavant — du pur raisonnement abstrait, et non de la reconnaissance de motifs à partir des données d'entraînement. Voici à quelle vitesse Gemini s'est amélioré :

Modèle	ARC-AGI-2	Date
Gemini 3 Pro	31,1 %	Nov 2025
GPT-5.2	52,9 %	Déc 2025
Claude Opus 4.6	68,8 %	Fév 2026
Gemini 3.1 Pro	77,1 %	Fév 2026

Gemini 3.1 Pro est passé de 31,1 % à 77,1 % en une seule version — une amélioration de 148 %. Cela provient de l'intégration des techniques de raisonnement étendu de Deep Think dans le modèle de base.

Ce qui a changé par rapport à Gemini 3 Pro

1. Intégration de Deep Think

Gemini 3 Deep Think était un modèle distinct, plus lent, optimisé pour le raisonnement étendu. Gemini 3.1 Pro intègre ces techniques directement dans le modèle standard, avec une profondeur de raisonnement ajustable. Vous bénéficiez d'un raisonnement de niveau Deep Think sans la latence associée pour la plupart des tâches.

2. Un raisonnement nettement supérieur

Les chiffres parlent d'eux-mêmes :

Benchmark	Gemini 3 Pro	Gemini 3.1 Pro	Amélioration
ARC-AGI-2	31,1 %	77,1 %	+148 %
GPQA Diamond	~88 %	94,3 %	+7 %
APEX-Agents	18,4 %	33,5 %	+82 %

3. Meilleures performances agentiques

Les scores APEX-Agents (33,5 %) et MCP Atlas (69,2 %) montrent que Gemini 3.1 Pro est nettement plus capable en tant qu'agent autonome — l'utilisation d'outils, la planification en plusieurs étapes et l'autocorrection sont toutes améliorées.

4. Maintien de la force multimodale

Gemini 3.1 Pro conserve l'avantage principal de Gemini : le traitement multimodal natif du texte, des images, de l'audio et de la vidéo au sein d'un seul contexte. Aucun autre modèle de pointe n'égale cette étendue à ce niveau de prix.

Tarification

Même prix que Gemini 3 Pro — une mise à jour gratuite :

Taille du contexte	Entrée (par M de tokens)	Sortie (par M de tokens)
≤ 200K tokens	2,00 $	12,00 $
> 200K tokens	4,00 $	18,00 $

Comparaison avec les concurrents

Modèle	Entrée	Sortie	Coût relatif
Gemini 3.1 Pro	2,00 $	12,00 $	1x
Claude Sonnet 4.6	3,00 $	15,00 $	1,5x
GPT-5.2	5,00 $	15,00 $	2,0x (entrée)
Claude Opus 4.6	15,00 $	75,00 $	7,5x

Gemini 3.1 Pro est le modèle de pointe le moins cher — 33 % moins cher que Sonnet 4.6 sur l'entrée, et 20 % moins cher sur la sortie.

Coût par session (100K entrée + 20K sortie)

Modèle	Coût
Gemini 3.1 Pro	0,44 $
Claude Sonnet 4.6	0,60 $
GPT-5.2	0,80 $
Claude Opus 4.6	3,00 $

Optimisation supplémentaire des coûts :

Mode batch : 50 % de réduction (0,22 $/session)

Mise en cache du contexte : La lecture d'entrées mises en cache coûte 10 % du prix de base

Disponibilité

Où l'utiliser

Plateforme	État	ID du modèle
Application Gemini (grand public)	Déploiement en cours	Sélection automatique
Google AI Studio	Disponible dès maintenant	`gemini-3.1-pro-preview`
Vertex AI	Disponible dès maintenant	`gemini-3.1-pro-preview`
Gemini API	Disponible dès maintenant	`gemini-3.1-pro-preview`
Gemini CLI	Disponible dès maintenant	`gemini-3.1-pro-preview`
Antigravity	Disponible dès maintenant	Sélection automatique
Android Studio	Disponible dès maintenant	Sélection automatique
GitHub Copilot	Preview publique	Sélectionnable
NotebookLM	Abonnés Pro/Ultra	Sélection automatique

Démarrage rapide de l'API

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Votre prompt ici")
print(response.text)

Point de terminaison pour outils personnalisés

Google a également lancé un point de terminaison (endpoint) spécialisé pour de meilleures performances des outils :

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Utilisez ce point de terminaison lors de la création d'agents qui s'appuient fortement sur l'appel de fonctions (function calling) et l'utilisation d'outils.

Ce que cela signifie

La course au raisonnement s'intensifie

Trois modèles de pointe ont été lancés en 13 jours :

6 fév : Claude Opus 4.6 (Anthropic)

17 fév : Claude Sonnet 4.6 (Anthropic)

19 fév : Gemini 3.1 Pro (Google)

Chacun revendique le leadership dans différents domaines. Le paysage des modèles se fragmente — plus aucun modèle unique ne domine tout.

Le meilleur raisonnement de sa catégorie à prix budget

Le score de 77,1 % de Gemini 3.1 Pro sur ARC-AGI-2 est le score de raisonnement le plus élevé disponible, au prix le plus bas (2 $/12 $). Pour les tâches nécessitant une résolution de problèmes inédits, un raisonnement abstrait ou une analyse scientifique, c'est le choix évident.

Parité en programmation

Avec 80,6 % sur SWE-bench (contre 80,8 % pour Opus 4.6 et 79,6 % pour Sonnet 4.6), Gemini 3.1 Pro est désormais compétitif en programmation pour la première fois. Les modèles Gemini précédents étaient nettement à la traîne de Claude sur ce benchmark.

La pièce manquante : l'utilisation de l'ordinateur

Gemini 3.1 Pro ne propose pas de benchmark sur OSWorld (utilisation de l'ordinateur). Claude Sonnet 4.6 mène avec 72,5 % sur cette capacité. Si votre flux de travail implique l'automatisation du navigateur, le remplissage de formulaires ou le contrôle du bureau, Claude reste la seule option viable.

Pour les développeurs qui créent des produits

Les implications pratiques :

Raisonnement le moins cher : 0,44 $/session contre 0,60 $ (Sonnet) contre 0,80 $ (GPT-5.2)

Idéal pour les tâches scientifiques/analytiques : 94,3 % sur GPQA Diamond est le score le plus élevé disponible

Compétitif en code : 80,6 % sur SWE-bench comble l'écart avec Claude

Avantage multimodal : Traitement natif vidéo/audio que Claude et GPT n'égalent pas

Statut Preview : Pas encore en GA — attendez-vous à des améliorations avant la disponibilité générale

Vous construisez avec l'IA ? Y Build s'intègre à vos outils d'IA préférés pour le développement, puis gère le déploiement, les vidéos produit Demo Cut, le SEO par l'IA et l'analytique — la pile complète, du code à la croissance. Commencez gratuitement.

Sources :

TL;DR

Google a lancé Gemini 3.1 Pro (preview) le 19 février 2026. Les chiffres clés :

ARC-AGI-2 : 77,1 % — plus du double de Gemini 3 Pro (31,1 %), bat Opus 4.6 (68,8 %) et GPT-5.2 (52,9 %)
GPQA Diamond : 94,3 % — en tête de tous les modèles pour les sciences de niveau universitaire
SWE-bench : 80,6 % — égale Opus 4.6 (80,8 %) en programmation
Prix : 2 $/12 $ par M de tokens — le modèle de pointe (frontier model) le moins cher
Contexte de 1 M de tokens — inchangé par rapport à Gemini 3 Pro
En tête sur 13 des 16 benchmarks évalués par Google
Disponible dès maintenant en preview : AI Studio, Vertex AI, Gemini CLI, application Gemini

Ce que Google a annoncé

Analyse complète des benchmarks

Là où Gemini 3.1 Pro mène (13 des 16 benchmarks)

Benchmark	Ce qu'il teste	Gemini 3.1 Pro	Meilleur concurrent
ARC-AGI-2	Raisonnement inédit	77,1 %	Opus 4.6 : 68,8 %
GPQA Diamond	Sciences (niveau master/doctorat)	94,3 %	GPT-5.2 : 92,4 %
BrowseComp	Recherche web agentique	85,9 %	Opus 4.6 : 84,0 %
Terminal-Bench 2.0	Code dans le terminal	68,5 %	Opus 4.6 : 65,4 %
APEX-Agents	Capacités des agents	33,5 %	Opus 4.6 : 29,8 %
MCP Atlas	Utilisation d'outils	69,2 %	—
t2-bench Telecom	Spécifique au domaine	99,3 %	—
SWE-bench Verified	Programmation	80,6 %	Opus 4.6 : 80,8 %
MRCR v2	Long contexte	84,9 %	Sonnet 4.6 : 84,9 % (égalité)

Là où les concurrents gagnent encore

Benchmark	Ce qu'il teste	Vainqueur	Gemini 3.1 Pro
GDPval-AA (Elo)	Tâches de bureau	Sonnet 4.6 : 1633	Non divulgué
Terminal-Bench 2.0	Code intensif dans le terminal	GPT-5.3-Codex : 77,3 %	68,5 %
SWE-Bench Pro	Programmation avancée	GPT-5.3-Codex : 56,8 %	Non divulgué
OSWorld	Utilisation de l'ordinateur	Sonnet 4.6 : 72,5 %	Non testé

Le bond en avant du raisonnement en contexte

Modèle	ARC-AGI-2	Date
Gemini 3 Pro	31,1 %	Nov 2025
GPT-5.2	52,9 %	Déc 2025
Claude Opus 4.6	68,8 %	Fév 2026
Gemini 3.1 Pro	77,1 %	Fév 2026

Ce qui a changé par rapport à Gemini 3 Pro

1. Intégration de Deep Think

2. Un raisonnement nettement supérieur

Les chiffres parlent d'eux-mêmes :

Benchmark	Gemini 3 Pro	Gemini 3.1 Pro	Amélioration
ARC-AGI-2	31,1 %	77,1 %	+148 %
GPQA Diamond	~88 %	94,3 %	+7 %
APEX-Agents	18,4 %	33,5 %	+82 %

3. Meilleures performances agentiques

4. Maintien de la force multimodale

Tarification

Même prix que Gemini 3 Pro — une mise à jour gratuite :

Taille du contexte	Entrée (par M de tokens)	Sortie (par M de tokens)
≤ 200K tokens	2,00 $	12,00 $
> 200K tokens	4,00 $	18,00 $

Comparaison avec les concurrents

Modèle	Entrée	Sortie	Coût relatif
Gemini 3.1 Pro	2,00 $	12,00 $	1x
Claude Sonnet 4.6	3,00 $	15,00 $	1,5x
GPT-5.2	5,00 $	15,00 $	2,0x (entrée)
Claude Opus 4.6	15,00 $	75,00 $	7,5x

Gemini 3.1 Pro est le modèle de pointe le moins cher — 33 % moins cher que Sonnet 4.6 sur l'entrée, et 20 % moins cher sur la sortie.

Coût par session (100K entrée + 20K sortie)

Modèle	Coût
Gemini 3.1 Pro	0,44 $
Claude Sonnet 4.6	0,60 $
GPT-5.2	0,80 $
Claude Opus 4.6	3,00 $

Optimisation supplémentaire des coûts :

Mode batch : 50 % de réduction (0,22 $/session)

Mise en cache du contexte : La lecture d'entrées mises en cache coûte 10 % du prix de base

Disponibilité

Où l'utiliser

Plateforme	État	ID du modèle
Application Gemini (grand public)	Déploiement en cours	Sélection automatique
Google AI Studio	Disponible dès maintenant	`gemini-3.1-pro-preview`
Vertex AI	Disponible dès maintenant	`gemini-3.1-pro-preview`
Gemini API	Disponible dès maintenant	`gemini-3.1-pro-preview`
Gemini CLI	Disponible dès maintenant	`gemini-3.1-pro-preview`
Antigravity	Disponible dès maintenant	Sélection automatique
Android Studio	Disponible dès maintenant	Sélection automatique
GitHub Copilot	Preview publique	Sélectionnable
NotebookLM	Abonnés Pro/Ultra	Sélection automatique

Démarrage rapide de l'API

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Votre prompt ici")
print(response.text)

Point de terminaison pour outils personnalisés

Google a également lancé un point de terminaison (endpoint) spécialisé pour de meilleures performances des outils :

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Utilisez ce point de terminaison lors de la création d'agents qui s'appuient fortement sur l'appel de fonctions (function calling) et l'utilisation d'outils.

Ce que cela signifie

La course au raisonnement s'intensifie

Trois modèles de pointe ont été lancés en 13 jours :

6 fév : Claude Opus 4.6 (Anthropic)

17 fév : Claude Sonnet 4.6 (Anthropic)

19 fév : Gemini 3.1 Pro (Google)

Chacun revendique le leadership dans différents domaines. Le paysage des modèles se fragmente — plus aucun modèle unique ne domine tout.

Le meilleur raisonnement de sa catégorie à prix budget

Parité en programmation

La pièce manquante : l'utilisation de l'ordinateur

Pour les développeurs qui créent des produits

Les implications pratiques :

Raisonnement le moins cher : 0,44 $/session contre 0,60 $ (Sonnet) contre 0,80 $ (GPT-5.2)

Idéal pour les tâches scientifiques/analytiques : 94,3 % sur GPQA Diamond est le score le plus élevé disponible

Compétitif en code : 80,6 % sur SWE-bench comble l'écart avec Claude

Avantage multimodal : Traitement natif vidéo/audio que Claude et GPT n'égalent pas

Statut Preview : Pas encore en GA — attendez-vous à des améliorations avant la disponibilité générale

Sources :