Gemini 3.1 Pro: Googles Sprung im logischen Denken erklärt

TL;DR

Google hat am 19. Februar 2026 Gemini 3.1 Pro (Preview) veröffentlicht. Die wichtigsten Zahlen:

ARC-AGI-2: 77,1 % — mehr als das Doppelte von Gemini 3 Pro (31,1 %), schlägt Opus 4.6 (68,8 %) und GPT-5.2 (52,9 %)
GPQA Diamond: 94,3 % — führt bei allen Modellen in Naturwissenschaften auf Hochschulniveau
SWE-bench: 80,6 % — zieht mit Opus 4.6 (80,8 %) beim Coding gleich
Preis: 2 $/12 $ pro Mio. Token — günstigstes Frontier-Modell
1M Token Kontext — unverändert gegenüber Gemini 3 Pro
Führend in 13 von 16 Benchmarks, die von Google evaluiert wurden
Ab sofort in der Preview verfügbar: AI Studio, Vertex AI, Gemini CLI, Gemini App

Was Google angekündigt hat

Am 19. Februar 2026 veröffentlichte Google Gemini 3.1 Pro – das erste „.1“-Inkrement in ihrer Modell-Versionierung. Es baut auf Gemini 3 Pro (November 2025) auf, indem es Techniken aus der Gemini 3 Deep Think Serie in ein zugänglicheres, schnelleres Modell integriert.

Googles Blog beschreibt es als entwickelt für „Aufgaben, bei denen eine einfache Antwort nicht ausreicht“ — komplexes, mehrstufiges logisches Denken (Reasoning), Datensynthese und agentische Workflows.

Die Schlagzeile: 77,1 % bei ARC-AGI-2, dem Benchmark für neuartiges abstraktes logisches Denken. Das ist mehr als das Doppelte der 31,1 % von Gemini 3 Pro und liegt deutlich vor Opus 4.6 (68,8 %) und GPT-5.2 (52,9 %). VentureBeat nennt es „ein Deep Think Mini mit anpassbarem Reasoning auf Abruf“.

Vollständige Benchmark-Analyse

Wo Gemini 3.1 Pro führt (13 von 16 Benchmarks)

Benchmark	Was getestet wird	Gemini 3.1 Pro	Bester Wettbewerber
ARC-AGI-2	Neuartiges Reasoning	77,1 %	Opus 4.6: 68,8 %
GPQA Diamond	Hochschul-Naturwissenschaften	94,3 %	GPT-5.2: 92,4 %
BrowseComp	Agentische Websuche	85,9 %	Opus 4.6: 84,0 %
Terminal-Bench 2.0	Terminal-Coding	68,5 %	Opus 4.6: 65,4 %
APEX-Agents	Agenten-Fähigkeiten	33,5 %	Opus 4.6: 29,8 %
MCP Atlas	Tool-Nutzung	69,2 %	—
t2-bench Telecom	Domänenspezifisch	99,3 %	—
SWE-bench Verified	Coding	80,6 %	Opus 4.6: 80,8 %
MRCR v2	Langer Kontext	84,9 %	Sonnet 4.6: 84,9 % (Gleichstand)

Wo Wettbewerber noch gewinnen

Benchmark	Was getestet wird	Gewinner	Gemini 3.1 Pro
GDPval-AA (Elo)	Büroaufgaben	Sonnet 4.6: 1633	Nicht offengelegt
Terminal-Bench 2.0	Schweres Terminal-Coding	GPT-5.3-Codex: 77,3 %	68,5 %
SWE-Bench Pro	Fortgeschrittenes Coding	GPT-5.3-Codex: 56,8 %	Nicht offengelegt
OSWorld	Computer-Nutzung	Sonnet 4.6: 72,5 %	Nicht getestet

Der Sprung im Reasoning im Kontext

ARC-AGI-2 misst die Fähigkeit eines Modells, Probleme zu lösen, die es noch nie zuvor gesehen hat — reines abstraktes logisches Denken, kein Mustervergleich aus Trainingsdaten. So schnell hat sich Gemini verbessert:

Modell	ARC-AGI-2	Datum
Gemini 3 Pro	31,1 %	Nov 2025
GPT-5.2	52,9 %	Dez 2025
Claude Opus 4.6	68,8 %	Feb 2026
Gemini 3.1 Pro	77,1 %	Feb 2026

Gemini 3.1 Pro sprang in einer Version von 31,1 % auf 77,1 % — eine Verbesserung von 148 %. Dies resultiert aus der Integration der erweiterten Reasoning-Techniken von Deep Think in das Basismodell.

Was sich gegenüber Gemini 3 Pro geändert hat

1. Deep Think Integration

Gemini 3 Deep Think war ein separates, langsameres Modell, das für erweitertes Reasoning optimiert war. Gemini 3.1 Pro integriert diese Techniken direkt in das Standardmodell, mit anpassbarer Reasoning-Tiefe. Sie erhalten Reasoning auf Deep Think-Niveau ohne die Deep Think-Latenz für die meisten Aufgaben.

2. Dramatisch besseres Reasoning

Die Zahlen sprechen für sich:

Benchmark	Gemini 3 Pro	Gemini 3.1 Pro	Verbesserung
ARC-AGI-2	31,1 %	77,1 %	+148 %
GPQA Diamond	~88 %	94,3 %	+7 %
APEX-Agents	18,4 %	33,5 %	+82 %

3. Bessere agentische Performance

Die Ergebnisse von APEX-Agents (33,5 %) und MCP Atlas (69,2 %) zeigen, dass Gemini 3.1 Pro als autonomer Agent deutlich leistungsfähiger ist — Tool-Nutzung, mehrstufige Planung und Selbstkorrektur wurden verbessert.

4. Beibehaltung der multimodalen Stärke

Gemini 3.1 Pro behält den Kernvorteil von Gemini bei: native multimodale Verarbeitung von Text, Bildern, Audio und Video innerhalb eines einzigen Kontexts. Kein anderes Frontier-Modell erreicht diese Breite zu diesem Preispunkt.

Preise

Gleicher Preis wie Gemini 3 Pro — ein kostenloses Upgrade:

Kontextgröße	Input (pro Mio. Token)	Output (pro Mio. Token)
≤200K Token	2,00 $	12,00 $
>200K Token	4,00 $	18,00 $

Vergleich mit Wettbewerbern

Modell	Input	Output	Relative Kosten
Gemini 3.1 Pro	2,00 $	12,00 $	1x
Claude Sonnet 4.6	3,00 $	15,00 $	1,5x
GPT-5.2	5,00 $	15,00 $	2,0x (Input)
Claude Opus 4.6	15,00 $	75,00 $	7,5x

Gemini 3.1 Pro ist das günstigste Frontier-Modell — 33 % günstiger als Sonnet 4.6 beim Input und 20 % günstiger beim Output.

Kosten pro Session (100K in + 20K out)

Modell	Kosten
Gemini 3.1 Pro	0,44 $
Claude Sonnet 4.6	0,60 $
GPT-5.2	0,80 $
Claude Opus 4.6	3,00 $

Zusätzliche Kostenoptimierung:

Batch-Modus: 50 % Rabatt (0,22 $/Session)

Context Caching: Gecachte Input-Reads kosten 10 % des Basispreises

Verfügbarkeit

Wo es verwendet werden kann

Plattform	Status	Modell-ID
Gemini App (Endverbraucher)	Rollout läuft	Automatisch ausgewählt
Google AI Studio	Jetzt verfügbar	`gemini-3.1-pro-preview`
Vertex AI	Jetzt verfügbar	`gemini-3.1-pro-preview`
Gemini API	Jetzt verfügbar	`gemini-3.1-pro-preview`
Gemini CLI	Jetzt verfügbar	`gemini-3.1-pro-preview`
Antigravity	Jetzt verfügbar	Automatisch ausgewählt
Android Studio	Jetzt verfügbar	Automatisch ausgewählt
GitHub Copilot	Public Preview	Auswählbar
NotebookLM	Pro/Ultra Abonnenten	Automatisch ausgewählt

API-Schnellstart

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Ihr Prompt hier")
print(response.text)

Custom Tools Endpunkt

Google hat außerdem einen spezialisierten Endpunkt für bessere Tool-Performance veröffentlicht:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Verwenden Sie diesen Endpunkt, wenn Sie Agenten bauen, die stark auf Function Calling und Tool-Nutzung angewiesen sind.

Was das bedeutet

Das Rennen um Reasoning spitzt sich zu

Drei Frontier-Modelle wurden innerhalb von 13 Tagen veröffentlicht:

6. Feb: Claude Opus 4.6 (Anthropic)

17. Feb: Claude Sonnet 4.6 (Anthropic)

19. Feb: Gemini 3.1 Pro (Google)

Jedes Modell beansprucht die Führung in verschiedenen Bereichen. Die Modell-Landschaft fragmentiert sich — kein einzelnes Modell dominiert mehr alles.

Klassenbestes Reasoning zu Budget-Preisen

Die 77,1 % von Gemini 3.1 Pro bei ARC-AGI-2 sind der höchste verfügbare Reasoning-Score zum niedrigsten Preis (2 $/12 $). Für Aufgaben, die neuartige Problemlösungen, abstraktes Denken oder wissenschaftliche Analysen erfordern, ist es die klare Wahl.

Gleichstand beim Coding

Mit 80,6 % im SWE-bench (gegenüber 80,8 % bei Opus 4.6 und 79,6 % bei Sonnet 4.6) ist Gemini 3.1 Pro zum ersten Mal beim Coding wettbewerbsfähig. Frühere Gemini-Modelle lagen in diesem Benchmark deutlich hinter Claude zurück.

Das fehlende Puzzleteil: Computer-Nutzung

Gemini 3.1 Pro bietet keine Benchmarks für OSWorld (Computer-Nutzung). Claude Sonnet 4.6 führt mit 72,5 % in dieser Fähigkeit. Wenn Ihr Workflow Browser-Automatisierung, das Ausfüllen von Formularen oder die Desktop-Steuerung umfasst, bleibt Claude die einzige praktikable Option.

Für Entwickler, die Produkte bauen

Die praktischen Auswirkungen:

Günstigstes Reasoning: 0,44 $/Session vs. 0,60 $ (Sonnet) vs. 0,80 $ (GPT-5.2)

Bestens geeignet für wissenschaftliche/analytische Aufgaben: 94,3 % GPQA Diamond ist der höchste verfügbare Score

Wettbewerbsfähig beim Coding: 80,6 % SWE-bench schließt die Lücke zu Claude

Multimodaler Vorteil: Native Video-/Audioverarbeitung, die Claude und GPT nicht erreichen

Preview-Status: Noch nicht GA — erwarten Sie Verbesserungen vor der allgemeinen Verfügbarkeit

Bauen Sie mit KI? Y Build integriert Ihre bevorzugten KI-Tools für die Entwicklung und übernimmt dann das Deployment, Demo Cut Produktvideos, KI-SEO und Analytics — der komplette Stack vom Code bis zum Wachstum. Kostenlos starten.

Quellen:

TL;DR

Google hat am 19. Februar 2026 Gemini 3.1 Pro (Preview) veröffentlicht. Die wichtigsten Zahlen:

ARC-AGI-2: 77,1 % — mehr als das Doppelte von Gemini 3 Pro (31,1 %), schlägt Opus 4.6 (68,8 %) und GPT-5.2 (52,9 %)
GPQA Diamond: 94,3 % — führt bei allen Modellen in Naturwissenschaften auf Hochschulniveau
SWE-bench: 80,6 % — zieht mit Opus 4.6 (80,8 %) beim Coding gleich
Preis: 2 $/12 $ pro Mio. Token — günstigstes Frontier-Modell
1M Token Kontext — unverändert gegenüber Gemini 3 Pro
Führend in 13 von 16 Benchmarks, die von Google evaluiert wurden
Ab sofort in der Preview verfügbar: AI Studio, Vertex AI, Gemini CLI, Gemini App

Was Google angekündigt hat

Vollständige Benchmark-Analyse

Wo Gemini 3.1 Pro führt (13 von 16 Benchmarks)

Benchmark	Was getestet wird	Gemini 3.1 Pro	Bester Wettbewerber
ARC-AGI-2	Neuartiges Reasoning	77,1 %	Opus 4.6: 68,8 %
GPQA Diamond	Hochschul-Naturwissenschaften	94,3 %	GPT-5.2: 92,4 %
BrowseComp	Agentische Websuche	85,9 %	Opus 4.6: 84,0 %
Terminal-Bench 2.0	Terminal-Coding	68,5 %	Opus 4.6: 65,4 %
APEX-Agents	Agenten-Fähigkeiten	33,5 %	Opus 4.6: 29,8 %
MCP Atlas	Tool-Nutzung	69,2 %	—
t2-bench Telecom	Domänenspezifisch	99,3 %	—
SWE-bench Verified	Coding	80,6 %	Opus 4.6: 80,8 %
MRCR v2	Langer Kontext	84,9 %	Sonnet 4.6: 84,9 % (Gleichstand)

Wo Wettbewerber noch gewinnen

Benchmark	Was getestet wird	Gewinner	Gemini 3.1 Pro
GDPval-AA (Elo)	Büroaufgaben	Sonnet 4.6: 1633	Nicht offengelegt
Terminal-Bench 2.0	Schweres Terminal-Coding	GPT-5.3-Codex: 77,3 %	68,5 %
SWE-Bench Pro	Fortgeschrittenes Coding	GPT-5.3-Codex: 56,8 %	Nicht offengelegt
OSWorld	Computer-Nutzung	Sonnet 4.6: 72,5 %	Nicht getestet

Der Sprung im Reasoning im Kontext

Modell	ARC-AGI-2	Datum
Gemini 3 Pro	31,1 %	Nov 2025
GPT-5.2	52,9 %	Dez 2025
Claude Opus 4.6	68,8 %	Feb 2026
Gemini 3.1 Pro	77,1 %	Feb 2026

Was sich gegenüber Gemini 3 Pro geändert hat

1. Deep Think Integration

2. Dramatisch besseres Reasoning

Die Zahlen sprechen für sich:

Benchmark	Gemini 3 Pro	Gemini 3.1 Pro	Verbesserung
ARC-AGI-2	31,1 %	77,1 %	+148 %
GPQA Diamond	~88 %	94,3 %	+7 %
APEX-Agents	18,4 %	33,5 %	+82 %

3. Bessere agentische Performance

4. Beibehaltung der multimodalen Stärke

Preise

Gleicher Preis wie Gemini 3 Pro — ein kostenloses Upgrade:

Kontextgröße	Input (pro Mio. Token)	Output (pro Mio. Token)
≤200K Token	2,00 $	12,00 $
>200K Token	4,00 $	18,00 $

Vergleich mit Wettbewerbern

Modell	Input	Output	Relative Kosten
Gemini 3.1 Pro	2,00 $	12,00 $	1x
Claude Sonnet 4.6	3,00 $	15,00 $	1,5x
GPT-5.2	5,00 $	15,00 $	2,0x (Input)
Claude Opus 4.6	15,00 $	75,00 $	7,5x

Gemini 3.1 Pro ist das günstigste Frontier-Modell — 33 % günstiger als Sonnet 4.6 beim Input und 20 % günstiger beim Output.

Kosten pro Session (100K in + 20K out)

Modell	Kosten
Gemini 3.1 Pro	0,44 $
Claude Sonnet 4.6	0,60 $
GPT-5.2	0,80 $
Claude Opus 4.6	3,00 $

Zusätzliche Kostenoptimierung:

Batch-Modus: 50 % Rabatt (0,22 $/Session)

Context Caching: Gecachte Input-Reads kosten 10 % des Basispreises

Verfügbarkeit

Wo es verwendet werden kann

Plattform	Status	Modell-ID
Gemini App (Endverbraucher)	Rollout läuft	Automatisch ausgewählt
Google AI Studio	Jetzt verfügbar	`gemini-3.1-pro-preview`
Vertex AI	Jetzt verfügbar	`gemini-3.1-pro-preview`
Gemini API	Jetzt verfügbar	`gemini-3.1-pro-preview`
Gemini CLI	Jetzt verfügbar	`gemini-3.1-pro-preview`
Antigravity	Jetzt verfügbar	Automatisch ausgewählt
Android Studio	Jetzt verfügbar	Automatisch ausgewählt
GitHub Copilot	Public Preview	Auswählbar
NotebookLM	Pro/Ultra Abonnenten	Automatisch ausgewählt

API-Schnellstart

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Ihr Prompt hier")
print(response.text)

Custom Tools Endpunkt

Google hat außerdem einen spezialisierten Endpunkt für bessere Tool-Performance veröffentlicht:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Verwenden Sie diesen Endpunkt, wenn Sie Agenten bauen, die stark auf Function Calling und Tool-Nutzung angewiesen sind.

Was das bedeutet

Das Rennen um Reasoning spitzt sich zu

Drei Frontier-Modelle wurden innerhalb von 13 Tagen veröffentlicht:

6. Feb: Claude Opus 4.6 (Anthropic)

17. Feb: Claude Sonnet 4.6 (Anthropic)

19. Feb: Gemini 3.1 Pro (Google)

Jedes Modell beansprucht die Führung in verschiedenen Bereichen. Die Modell-Landschaft fragmentiert sich — kein einzelnes Modell dominiert mehr alles.

Klassenbestes Reasoning zu Budget-Preisen

Gleichstand beim Coding

Das fehlende Puzzleteil: Computer-Nutzung

Für Entwickler, die Produkte bauen

Die praktischen Auswirkungen:

Günstigstes Reasoning: 0,44 $/Session vs. 0,60 $ (Sonnet) vs. 0,80 $ (GPT-5.2)

Bestens geeignet für wissenschaftliche/analytische Aufgaben: 94,3 % GPQA Diamond ist der höchste verfügbare Score

Wettbewerbsfähig beim Coding: 80,6 % SWE-bench schließt die Lücke zu Claude

Multimodaler Vorteil: Native Video-/Audioverarbeitung, die Claude und GPT nicht erreichen

Preview-Status: Noch nicht GA — erwarten Sie Verbesserungen vor der allgemeinen Verfügbarkeit

Quellen: