Gemini 3.1 Pro : le bond en avant de Google en matière de raisonnement expliqué
Google a lancé Gemini 3.1 Pro le 19 février 2026 — obtenant un score de 77,1 % sur ARC-AGI-2, soit plus du double de Gemini 3 Pro. Analyse complète des benchmarks, tarifs (2 $/12 $ par M de tokens), disponibilité et impact pour les développeurs.
TL;DR
Google a lancé Gemini 3.1 Pro (preview) le 19 février 2026. Les chiffres clés :
- ARC-AGI-2 : 77,1 % — plus du double de Gemini 3 Pro (31,1 %), bat Opus 4.6 (68,8 %) et GPT-5.2 (52,9 %)
- GPQA Diamond : 94,3 % — en tête de tous les modèles pour les sciences de niveau universitaire
- SWE-bench : 80,6 % — égale Opus 4.6 (80,8 %) en programmation
- Prix : 2 $/12 $ par M de tokens — le modèle de pointe (frontier model) le moins cher
- Contexte de 1 M de tokens — inchangé par rapport à Gemini 3 Pro
- En tête sur 13 des 16 benchmarks évalués par Google
- Disponible dès maintenant en preview : AI Studio, Vertex AI, Gemini CLI, application Gemini
Ce que Google a annoncé
Le 19 février 2026, Google a lancé Gemini 3.1 Pro — le premier incrément en « .1 » dans la version de leur modèle. Il s'appuie sur Gemini 3 Pro (novembre 2025) en intégrant des techniques de la série Gemini 3 Deep Think dans un modèle plus accessible et plus rapide.
Le blog de Google le décrit comme étant conçu pour « les tâches où une réponse simple ne suffit pas » — raisonnement complexe en plusieurs étapes, synthèse de données et flux de travail agentiques.
La statistique phare : 77,1 % sur ARC-AGI-2, le benchmark de référence pour le raisonnement abstrait inédit. C'est plus du double des 31,1 % de Gemini 3 Pro, et nettement devant Opus 4.6 (68,8 %) et GPT-5.2 (52,9 %). VentureBeat le qualifie de « Deep Think Mini avec raisonnement ajustable à la demande ».
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Analyse complète des benchmarks
Là où Gemini 3.1 Pro mène (13 des 16 benchmarks)
| Benchmark | Ce qu'il teste | Gemini 3.1 Pro | Meilleur concurrent |
|---|---|---|---|
| ARC-AGI-2 | Raisonnement inédit | 77,1 % | Opus 4.6 : 68,8 % |
| GPQA Diamond | Sciences (niveau master/doctorat) | 94,3 % | GPT-5.2 : 92,4 % |
| BrowseComp | Recherche web agentique | 85,9 % | Opus 4.6 : 84,0 % |
| Terminal-Bench 2.0 | Code dans le terminal | 68,5 % | Opus 4.6 : 65,4 % |
| APEX-Agents | Capacités des agents | 33,5 % | Opus 4.6 : 29,8 % |
| MCP Atlas | Utilisation d'outils | 69,2 % | — |
| t2-bench Telecom | Spécifique au domaine | 99,3 % | — |
| SWE-bench Verified | Programmation | 80,6 % | Opus 4.6 : 80,8 % |
| MRCR v2 | Long contexte | 84,9 % | Sonnet 4.6 : 84,9 % (égalité) |
Là où les concurrents gagnent encore
| Benchmark | Ce qu'il teste | Vainqueur | Gemini 3.1 Pro |
|---|---|---|---|
| GDPval-AA (Elo) | Tâches de bureau | Sonnet 4.6 : 1633 | Non divulgué |
| Terminal-Bench 2.0 | Code intensif dans le terminal | GPT-5.3-Codex : 77,3 % | 68,5 % |
| SWE-Bench Pro | Programmation avancée | GPT-5.3-Codex : 56,8 % | Non divulgué |
| OSWorld | Utilisation de l'ordinateur | Sonnet 4.6 : 72,5 % | Non testé |
Le bond en avant du raisonnement en contexte
ARC-AGI-2 mesure la capacité d'un modèle à résoudre des problèmes qu'il n'a jamais vus auparavant — du pur raisonnement abstrait, et non de la reconnaissance de motifs à partir des données d'entraînement. Voici à quelle vitesse Gemini s'est amélioré :
| Modèle | ARC-AGI-2 | Date |
|---|---|---|
| Gemini 3 Pro | 31,1 % | Nov 2025 |
| GPT-5.2 | 52,9 % | Déc 2025 |
| Claude Opus 4.6 | 68,8 % | Fév 2026 |
| Gemini 3.1 Pro | 77,1 % | Fév 2026 |
Gemini 3.1 Pro est passé de 31,1 % à 77,1 % en une seule version — une amélioration de 148 %. Cela provient de l'intégration des techniques de raisonnement étendu de Deep Think dans le modèle de base.
Ce qui a changé par rapport à Gemini 3 Pro
1. Intégration de Deep Think
Gemini 3 Deep Think était un modèle distinct, plus lent, optimisé pour le raisonnement étendu. Gemini 3.1 Pro intègre ces techniques directement dans le modèle standard, avec une profondeur de raisonnement ajustable. Vous bénéficiez d'un raisonnement de niveau Deep Think sans la latence associée pour la plupart des tâches.
2. Un raisonnement nettement supérieur
Les chiffres parlent d'eux-mêmes :
| Benchmark | Gemini 3 Pro | Gemini 3.1 Pro | Amélioration |
|---|---|---|---|
| ARC-AGI-2 | 31,1 % | 77,1 % | +148 % |
| GPQA Diamond | ~88 % | 94,3 % | +7 % |
| APEX-Agents | 18,4 % | 33,5 % | +82 % |
3. Meilleures performances agentiques
Les scores APEX-Agents (33,5 %) et MCP Atlas (69,2 %) montrent que Gemini 3.1 Pro est nettement plus capable en tant qu'agent autonome — l'utilisation d'outils, la planification en plusieurs étapes et l'autocorrection sont toutes améliorées.
4. Maintien de la force multimodale
Gemini 3.1 Pro conserve l'avantage principal de Gemini : le traitement multimodal natif du texte, des images, de l'audio et de la vidéo au sein d'un seul contexte. Aucun autre modèle de pointe n'égale cette étendue à ce niveau de prix.
Tarification
Même prix que Gemini 3 Pro — une mise à jour gratuite :
| Taille du contexte | Entrée (par M de tokens) | Sortie (par M de tokens) |
|---|---|---|
| ≤ 200K tokens | 2,00 $ | 12,00 $ |
| > 200K tokens | 4,00 $ | 18,00 $ |
Comparaison avec les concurrents
| Modèle | Entrée | Sortie | Coût relatif |
|---|---|---|---|
| Gemini 3.1 Pro | 2,00 $ | 12,00 $ | 1x |
| Claude Sonnet 4.6 | 3,00 $ | 15,00 $ | 1,5x |
| GPT-5.2 | 5,00 $ | 15,00 $ | 2,0x (entrée) |
| Claude Opus 4.6 | 15,00 $ | 75,00 $ | 7,5x |
Gemini 3.1 Pro est le modèle de pointe le moins cher — 33 % moins cher que Sonnet 4.6 sur l'entrée, et 20 % moins cher sur la sortie.
Coût par session (100K entrée + 20K sortie)
| Modèle | Coût |
|---|---|
| Gemini 3.1 Pro | 0,44 $ |
| Claude Sonnet 4.6 | 0,60 $ |
| GPT-5.2 | 0,80 $ |
| Claude Opus 4.6 | 3,00 $ |
Optimisation supplémentaire des coûts :
- Mode batch : 50 % de réduction (0,22 $/session)
- Mise en cache du contexte : La lecture d'entrées mises en cache coûte 10 % du prix de base
Disponibilité
Où l'utiliser
| Plateforme | État | ID du modèle |
|---|---|---|
| Application Gemini (grand public) | Déploiement en cours | Sélection automatique |
| Google AI Studio | Disponible dès maintenant | gemini-3.1-pro-preview |
| Vertex AI | Disponible dès maintenant | gemini-3.1-pro-preview |
| Gemini API | Disponible dès maintenant | gemini-3.1-pro-preview |
| Gemini CLI | Disponible dès maintenant | gemini-3.1-pro-preview |
| Antigravity | Disponible dès maintenant | Sélection automatique |
| Android Studio | Disponible dès maintenant | Sélection automatique |
| GitHub Copilot | Preview publique | Sélectionnable |
| NotebookLM | Abonnés Pro/Ultra | Sélection automatique |
Démarrage rapide de l'API
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")
response = model.generate_content("Votre prompt ici")
print(response.text)
Point de terminaison pour outils personnalisés
Google a également lancé un point de terminaison (endpoint) spécialisé pour de meilleures performances des outils :
model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")
Utilisez ce point de terminaison lors de la création d'agents qui s'appuient fortement sur l'appel de fonctions (function calling) et l'utilisation d'outils.
Ce que cela signifie
La course au raisonnement s'intensifie
Trois modèles de pointe ont été lancés en 13 jours :
- 6 fév : Claude Opus 4.6 (Anthropic)
- 17 fév : Claude Sonnet 4.6 (Anthropic)
- 19 fév : Gemini 3.1 Pro (Google)
Chacun revendique le leadership dans différents domaines. Le paysage des modèles se fragmente — plus aucun modèle unique ne domine tout.
Le meilleur raisonnement de sa catégorie à prix budget
Le score de 77,1 % de Gemini 3.1 Pro sur ARC-AGI-2 est le score de raisonnement le plus élevé disponible, au prix le plus bas (2 $/12 $). Pour les tâches nécessitant une résolution de problèmes inédits, un raisonnement abstrait ou une analyse scientifique, c'est le choix évident.
Parité en programmation
Avec 80,6 % sur SWE-bench (contre 80,8 % pour Opus 4.6 et 79,6 % pour Sonnet 4.6), Gemini 3.1 Pro est désormais compétitif en programmation pour la première fois. Les modèles Gemini précédents étaient nettement à la traîne de Claude sur ce benchmark.
La pièce manquante : l'utilisation de l'ordinateur
Gemini 3.1 Pro ne propose pas de benchmark sur OSWorld (utilisation de l'ordinateur). Claude Sonnet 4.6 mène avec 72,5 % sur cette capacité. Si votre flux de travail implique l'automatisation du navigateur, le remplissage de formulaires ou le contrôle du bureau, Claude reste la seule option viable.
Pour les développeurs qui créent des produits
Les implications pratiques :
- Raisonnement le moins cher : 0,44 $/session contre 0,60 $ (Sonnet) contre 0,80 $ (GPT-5.2)
- Idéal pour les tâches scientifiques/analytiques : 94,3 % sur GPQA Diamond est le score le plus élevé disponible
- Compétitif en code : 80,6 % sur SWE-bench comble l'écart avec Claude
- Avantage multimodal : Traitement natif vidéo/audio que Claude et GPT n'égalent pas
- Statut Preview : Pas encore en GA — attendez-vous à des améliorations avant la disponibilité générale
Vous construisez avec l'IA ? Y Build s'intègre à vos outils d'IA préférés pour le développement, puis gère le déploiement, les vidéos produit Demo Cut, le SEO par l'IA et l'analytique — la pile complète, du code à la croissance. Commencez gratuitement.
Sources :
- Google Blog: Gemini 3.1 Pro announcement
- Google DeepMind: Gemini 3.1 Pro Model Card
- 9to5Google: Gemini 3.1 Pro for complex problem-solving
- VentureBeat: Gemini 3.1 Pro first impressions
- MarkTechPost: Gemini 3.1 Pro 77.1% ARC-AGI-2
- OfficeChai: Gemini 3.1 Pro Benchmarks
- GitHub Blog: Gemini 3.1 Pro in GitHub Copilot
- The Decoder: Gemini 3.1 Pro reasoning
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.