Gemini 3.1 Pro: Googles Sprung im logischen Denken erklärt
Google veröffentlichte Gemini 3.1 Pro am 19. Februar 2026 – mit 77,1 % bei ARC-AGI-2 mehr als eine Verdopplung gegenüber Gemini 3 Pro. Vollständige Benchmark-Analyse, Preise (2 $/12 $ pro Mio. Token), Verfügbarkeit und Bedeutung für Entwickler.
TL;DR
Google hat am 19. Februar 2026 Gemini 3.1 Pro (Preview) veröffentlicht. Die wichtigsten Zahlen:
- ARC-AGI-2: 77,1 % — mehr als das Doppelte von Gemini 3 Pro (31,1 %), schlägt Opus 4.6 (68,8 %) und GPT-5.2 (52,9 %)
- GPQA Diamond: 94,3 % — führt bei allen Modellen in Naturwissenschaften auf Hochschulniveau
- SWE-bench: 80,6 % — zieht mit Opus 4.6 (80,8 %) beim Coding gleich
- Preis: 2 $/12 $ pro Mio. Token — günstigstes Frontier-Modell
- 1M Token Kontext — unverändert gegenüber Gemini 3 Pro
- Führend in 13 von 16 Benchmarks, die von Google evaluiert wurden
- Ab sofort in der Preview verfügbar: AI Studio, Vertex AI, Gemini CLI, Gemini App
Was Google angekündigt hat
Am 19. Februar 2026 veröffentlichte Google Gemini 3.1 Pro – das erste „.1“-Inkrement in ihrer Modell-Versionierung. Es baut auf Gemini 3 Pro (November 2025) auf, indem es Techniken aus der Gemini 3 Deep Think Serie in ein zugänglicheres, schnelleres Modell integriert.
Googles Blog beschreibt es als entwickelt für „Aufgaben, bei denen eine einfache Antwort nicht ausreicht“ — komplexes, mehrstufiges logisches Denken (Reasoning), Datensynthese und agentische Workflows.
Die Schlagzeile: 77,1 % bei ARC-AGI-2, dem Benchmark für neuartiges abstraktes logisches Denken. Das ist mehr als das Doppelte der 31,1 % von Gemini 3 Pro und liegt deutlich vor Opus 4.6 (68,8 %) und GPT-5.2 (52,9 %). VentureBeat nennt es „ein Deep Think Mini mit anpassbarem Reasoning auf Abruf“.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Vollständige Benchmark-Analyse
Wo Gemini 3.1 Pro führt (13 von 16 Benchmarks)
| Benchmark | Was getestet wird | Gemini 3.1 Pro | Bester Wettbewerber |
|---|---|---|---|
| ARC-AGI-2 | Neuartiges Reasoning | 77,1 % | Opus 4.6: 68,8 % |
| GPQA Diamond | Hochschul-Naturwissenschaften | 94,3 % | GPT-5.2: 92,4 % |
| BrowseComp | Agentische Websuche | 85,9 % | Opus 4.6: 84,0 % |
| Terminal-Bench 2.0 | Terminal-Coding | 68,5 % | Opus 4.6: 65,4 % |
| APEX-Agents | Agenten-Fähigkeiten | 33,5 % | Opus 4.6: 29,8 % |
| MCP Atlas | Tool-Nutzung | 69,2 % | — |
| t2-bench Telecom | Domänenspezifisch | 99,3 % | — |
| SWE-bench Verified | Coding | 80,6 % | Opus 4.6: 80,8 % |
| MRCR v2 | Langer Kontext | 84,9 % | Sonnet 4.6: 84,9 % (Gleichstand) |
Wo Wettbewerber noch gewinnen
| Benchmark | Was getestet wird | Gewinner | Gemini 3.1 Pro |
|---|---|---|---|
| GDPval-AA (Elo) | Büroaufgaben | Sonnet 4.6: 1633 | Nicht offengelegt |
| Terminal-Bench 2.0 | Schweres Terminal-Coding | GPT-5.3-Codex: 77,3 % | 68,5 % |
| SWE-Bench Pro | Fortgeschrittenes Coding | GPT-5.3-Codex: 56,8 % | Nicht offengelegt |
| OSWorld | Computer-Nutzung | Sonnet 4.6: 72,5 % | Nicht getestet |
Der Sprung im Reasoning im Kontext
ARC-AGI-2 misst die Fähigkeit eines Modells, Probleme zu lösen, die es noch nie zuvor gesehen hat — reines abstraktes logisches Denken, kein Mustervergleich aus Trainingsdaten. So schnell hat sich Gemini verbessert:
| Modell | ARC-AGI-2 | Datum |
|---|---|---|
| Gemini 3 Pro | 31,1 % | Nov 2025 |
| GPT-5.2 | 52,9 % | Dez 2025 |
| Claude Opus 4.6 | 68,8 % | Feb 2026 |
| Gemini 3.1 Pro | 77,1 % | Feb 2026 |
Gemini 3.1 Pro sprang in einer Version von 31,1 % auf 77,1 % — eine Verbesserung von 148 %. Dies resultiert aus der Integration der erweiterten Reasoning-Techniken von Deep Think in das Basismodell.
Was sich gegenüber Gemini 3 Pro geändert hat
1. Deep Think Integration
Gemini 3 Deep Think war ein separates, langsameres Modell, das für erweitertes Reasoning optimiert war. Gemini 3.1 Pro integriert diese Techniken direkt in das Standardmodell, mit anpassbarer Reasoning-Tiefe. Sie erhalten Reasoning auf Deep Think-Niveau ohne die Deep Think-Latenz für die meisten Aufgaben.
2. Dramatisch besseres Reasoning
Die Zahlen sprechen für sich:
| Benchmark | Gemini 3 Pro | Gemini 3.1 Pro | Verbesserung |
|---|---|---|---|
| ARC-AGI-2 | 31,1 % | 77,1 % | +148 % |
| GPQA Diamond | ~88 % | 94,3 % | +7 % |
| APEX-Agents | 18,4 % | 33,5 % | +82 % |
3. Bessere agentische Performance
Die Ergebnisse von APEX-Agents (33,5 %) und MCP Atlas (69,2 %) zeigen, dass Gemini 3.1 Pro als autonomer Agent deutlich leistungsfähiger ist — Tool-Nutzung, mehrstufige Planung und Selbstkorrektur wurden verbessert.
4. Beibehaltung der multimodalen Stärke
Gemini 3.1 Pro behält den Kernvorteil von Gemini bei: native multimodale Verarbeitung von Text, Bildern, Audio und Video innerhalb eines einzigen Kontexts. Kein anderes Frontier-Modell erreicht diese Breite zu diesem Preispunkt.
Preise
Gleicher Preis wie Gemini 3 Pro — ein kostenloses Upgrade:
| Kontextgröße | Input (pro Mio. Token) | Output (pro Mio. Token) |
|---|---|---|
| ≤200K Token | 2,00 $ | 12,00 $ |
| >200K Token | 4,00 $ | 18,00 $ |
Vergleich mit Wettbewerbern
| Modell | Input | Output | Relative Kosten |
|---|---|---|---|
| Gemini 3.1 Pro | 2,00 $ | 12,00 $ | 1x |
| Claude Sonnet 4.6 | 3,00 $ | 15,00 $ | 1,5x |
| GPT-5.2 | 5,00 $ | 15,00 $ | 2,0x (Input) |
| Claude Opus 4.6 | 15,00 $ | 75,00 $ | 7,5x |
Gemini 3.1 Pro ist das günstigste Frontier-Modell — 33 % günstiger als Sonnet 4.6 beim Input und 20 % günstiger beim Output.
Kosten pro Session (100K in + 20K out)
| Modell | Kosten |
|---|---|
| Gemini 3.1 Pro | 0,44 $ |
| Claude Sonnet 4.6 | 0,60 $ |
| GPT-5.2 | 0,80 $ |
| Claude Opus 4.6 | 3,00 $ |
Zusätzliche Kostenoptimierung:
- Batch-Modus: 50 % Rabatt (0,22 $/Session)
- Context Caching: Gecachte Input-Reads kosten 10 % des Basispreises
Verfügbarkeit
Wo es verwendet werden kann
| Plattform | Status | Modell-ID |
|---|---|---|
| Gemini App (Endverbraucher) | Rollout läuft | Automatisch ausgewählt |
| Google AI Studio | Jetzt verfügbar | gemini-3.1-pro-preview |
| Vertex AI | Jetzt verfügbar | gemini-3.1-pro-preview |
| Gemini API | Jetzt verfügbar | gemini-3.1-pro-preview |
| Gemini CLI | Jetzt verfügbar | gemini-3.1-pro-preview |
| Antigravity | Jetzt verfügbar | Automatisch ausgewählt |
| Android Studio | Jetzt verfügbar | Automatisch ausgewählt |
| GitHub Copilot | Public Preview | Auswählbar |
| NotebookLM | Pro/Ultra Abonnenten | Automatisch ausgewählt |
API-Schnellstart
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")
response = model.generate_content("Ihr Prompt hier")
print(response.text)
Custom Tools Endpunkt
Google hat außerdem einen spezialisierten Endpunkt für bessere Tool-Performance veröffentlicht:
model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")
Verwenden Sie diesen Endpunkt, wenn Sie Agenten bauen, die stark auf Function Calling und Tool-Nutzung angewiesen sind.
Was das bedeutet
Das Rennen um Reasoning spitzt sich zu
Drei Frontier-Modelle wurden innerhalb von 13 Tagen veröffentlicht:
- 6. Feb: Claude Opus 4.6 (Anthropic)
- 17. Feb: Claude Sonnet 4.6 (Anthropic)
- 19. Feb: Gemini 3.1 Pro (Google)
Jedes Modell beansprucht die Führung in verschiedenen Bereichen. Die Modell-Landschaft fragmentiert sich — kein einzelnes Modell dominiert mehr alles.
Klassenbestes Reasoning zu Budget-Preisen
Die 77,1 % von Gemini 3.1 Pro bei ARC-AGI-2 sind der höchste verfügbare Reasoning-Score zum niedrigsten Preis (2 $/12 $). Für Aufgaben, die neuartige Problemlösungen, abstraktes Denken oder wissenschaftliche Analysen erfordern, ist es die klare Wahl.
Gleichstand beim Coding
Mit 80,6 % im SWE-bench (gegenüber 80,8 % bei Opus 4.6 und 79,6 % bei Sonnet 4.6) ist Gemini 3.1 Pro zum ersten Mal beim Coding wettbewerbsfähig. Frühere Gemini-Modelle lagen in diesem Benchmark deutlich hinter Claude zurück.
Das fehlende Puzzleteil: Computer-Nutzung
Gemini 3.1 Pro bietet keine Benchmarks für OSWorld (Computer-Nutzung). Claude Sonnet 4.6 führt mit 72,5 % in dieser Fähigkeit. Wenn Ihr Workflow Browser-Automatisierung, das Ausfüllen von Formularen oder die Desktop-Steuerung umfasst, bleibt Claude die einzige praktikable Option.
Für Entwickler, die Produkte bauen
Die praktischen Auswirkungen:
- Günstigstes Reasoning: 0,44 $/Session vs. 0,60 $ (Sonnet) vs. 0,80 $ (GPT-5.2)
- Bestens geeignet für wissenschaftliche/analytische Aufgaben: 94,3 % GPQA Diamond ist der höchste verfügbare Score
- Wettbewerbsfähig beim Coding: 80,6 % SWE-bench schließt die Lücke zu Claude
- Multimodaler Vorteil: Native Video-/Audioverarbeitung, die Claude und GPT nicht erreichen
- Preview-Status: Noch nicht GA — erwarten Sie Verbesserungen vor der allgemeinen Verfügbarkeit
Bauen Sie mit KI? Y Build integriert Ihre bevorzugten KI-Tools für die Entwicklung und übernimmt dann das Deployment, Demo Cut Produktvideos, KI-SEO und Analytics — der komplette Stack vom Code bis zum Wachstum. Kostenlos starten.
Quellen:
- Google Blog: Gemini 3.1 Pro announcement
- Google DeepMind: Gemini 3.1 Pro Model Card
- 9to5Google: Gemini 3.1 Pro for complex problem-solving
- VentureBeat: Gemini 3.1 Pro first impressions
- MarkTechPost: Gemini 3.1 Pro 77.1% ARC-AGI-2
- OfficeChai: Gemini 3.1 Pro Benchmarks
- GitHub Blog: Gemini 3.1 Pro in GitHub Copilot
- The Decoder: Gemini 3.1 Pro reasoning
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.