Gemini 3.1 Pro: Wyjaśniamy skok Google w dziedzinie rozumowania

TL;DR

Google wydało Gemini 3.1 Pro (preview) 19 lutego 2026 roku. Kluczowe liczby:

ARC-AGI-2: 77,1% — ponad dwukrotnie więcej niż Gemini 3 Pro (31,1%), pokonuje Opus 4.6 (68,8%) i GPT-5.2 (52,9%)
GPQA Diamond: 94,3% — prowadzi wśród wszystkich modeli w naukach ścisłych na poziomie akademickim
SWE-bench: 80,6% — dorównuje Opus 4.6 (80,8%) w programowaniu
Cena: 2 USD / 12 USD za 1 mln tokenów — najtańszy model klasy frontier
Kontekst 1M tokenów — bez zmian względem Gemini 3 Pro
Prowadzi w 13 z 16 benchmarków ocenianych przez Google
Dostępny już teraz w wersji preview: AI Studio, Vertex AI, Gemini CLI, aplikacja Gemini

Co ogłosiło Google

19 lutego 2026 r. Google wydało Gemini 3.1 Pro — pierwszy przyrost wersji o „.1” w ich nazewnictwie modeli. Bazuje on na Gemini 3 Pro (listopad 2025), integrując techniki z serii Gemini 3 Deep Think w bardziej dostępnym i szybszym modelu.

Blog Google opisuje go jako zaprojektowany do „zadań, w których prosta odpowiedź nie wystarcza” — złożonego, wieloetapowego rozumowania, syntezy danych i workflow opartych na agentach.

Główna statystyka: 77,1% w ARC-AGI-2, benchmarku dla nowatorskiego rozumowania abstrakcyjnego. To ponad dwukrotność wyniku Gemini 3 Pro (31,1%) i wynik znacznie wyższy niż w przypadku Opus 4.6 (68,8%) oraz GPT-5.2 (52,9%). VentureBeat nazywa go „Deep Think Mini z regulowanym rozumowaniem na żądanie”.

Pełne zestawienie benchmarków

Gdzie Gemini 3.1 Pro prowadzi (13 z 16 benchmarków)

Benchmark	Co testuje	Gemini 3.1 Pro	Najlepszy konkurent
ARC-AGI-2	Nowatorskie rozumowanie	77,1%	Opus 4.6: 68,8%
GPQA Diamond	Nauki akademickie	94,3%	GPT-5.2: 92,4%
BrowseComp	Agentowe wyszukiwanie w sieci	85,9%	Opus 4.6: 84,0%
Terminal-Bench 2.0	Programowanie w terminalu	68,5%	Opus 4.6: 65,4%
APEX-Agents	Zdolności agentowe	33,5%	Opus 4.6: 29,8%
MCP Atlas	Użycie narzędzi	69,2%	—
t2-bench Telecom	Specyficzne dla domeny	99,3%	—
SWE-bench Verified	Programowanie	80,6%	Opus 4.6: 80,8%
MRCR v2	Długi kontekst	84,9%	Sonnet 4.6: 84,9% (remis)

Gdzie konkurenci wciąż wygrywają

Benchmark	Co testuje	Zwycięzca	Gemini 3.1 Pro
GDPval-AA (Elo)	Zadania biurowe	Sonnet 4.6: 1633	Nie ujawniono
Terminal-Bench 2.0	Zaawansowane programowanie w terminalu	GPT-5.3-Codex: 77,3%	68,5%
SWE-Bench Pro	Zaawansowane programowanie	GPT-5.3-Codex: 56,8%	Nie ujawniono
OSWorld	Korzystanie z komputera	Sonnet 4.6: 72,5%	Nie testowano

Skok w rozumowaniu w kontekście

ARC-AGI-2 mierzy zdolność modelu do rozwiązywania problemów, których nigdy wcześniej nie widział — czyste rozumowanie abstrakcyjne, a nie dopasowywanie wzorców z danych treningowych. Oto jak szybko poprawiło się Gemini:

Model	ARC-AGI-2	Data
Gemini 3 Pro	31,1%	Listopad 2025
GPT-5.2	52,9%	Grudzień 2025
Claude Opus 4.6	68,8%	Luty 2026
Gemini 3.1 Pro	77,1%	Luty 2026

Gemini 3.1 Pro przeskoczyło z 31,1% do 77,1% w jednej wersji — to poprawa o 148%. Wynika to z integracji technik rozszerzonego rozumowania Deep Think z modelem bazowym.

Co się zmieniło względem Gemini 3 Pro

1. Integracja Deep Think

Gemini 3 Deep Think był oddzielnym, wolniejszym modelem zoptymalizowanym pod kątem rozszerzonego rozumowania. Gemini 3.1 Pro wprowadza te techniki do standardowego modelu, oferując regulowaną głębię rozumowania. Otrzymujesz rozumowanie na poziomie Deep Think bez typowych dla niego opóźnień w większości zadań.

2. Drastycznie lepsze rozumowanie

Liczby mówią same za siebie:

Benchmark	Gemini 3 Pro	Gemini 3.1 Pro	Poprawa
ARC-AGI-2	31,1%	77,1%	+148%
GPQA Diamond	~88%	94,3%	+7%
APEX-Agents	18,4%	33,5%	+82%

3. Lepsza wydajność agentowa

Wyniki APEX-Agents (33,5%) i MCP Atlas (69,2%) pokazują, że Gemini 3.1 Pro jest znacznie bardziej zdolny jako autonomiczny agent — poprawiono korzystanie z narzędzi, wieloetapowe planowanie i autokorektę.

4. Utrzymana siła multimodalności

Gemini 3.1 Pro zachowuje główną przewagę Gemini: natywne przetwarzanie multimodalne tekstu, obrazów, dźwięku i wideo w ramach jednego kontekstu. Żaden inny model klasy frontier nie dorównuje tej wszechstronności w tej cenie.

Cennik

Taka sama cena jak Gemini 3 Pro — bezpłatna aktualizacja:

Rozmiar kontekstu	Wejście (za 1 mln tokenów)	Wyjście (za 1 mln tokenów)
≤200K tokenów	2,00 USD	12,00 USD
>200K tokenów	4,00 USD	18,00 USD

Porównanie z konkurencją

Model	Wejście	Wyjście	Koszt względny
Gemini 3.1 Pro	2,00 USD	12,00 USD	1x
Claude Sonnet 4.6	3,00 USD	15,00 USD	1,5x
GPT-5.2	5,00 USD	15,00 USD	2,0x (wejście)
Claude Opus 4.6	15,00 USD	75,00 USD	7,5x

Gemini 3.1 Pro to najtańszy model klasy frontier — o 33% tańszy od Sonnet 4.6 na wejściu i o 20% tańszy na wyjściu.

Koszt sesji (100K wejście + 20K wyjście)

Model	Koszt
Gemini 3.1 Pro	0,44 USD
Claude Sonnet 4.6	0,60 USD
GPT-5.2	0,80 USD
Claude Opus 4.6	3,00 USD

Dodatkowa optymalizacja kosztów:

Tryb Batch: 50% zniżki (0,22 USD/sesja)

Context caching: Odczyty z pamięci podręcznej kosztują 10% ceny bazowej

Dostępność

Gdzie można go użyć

Platforma	Status	ID modelu
Aplikacja Gemini (konsumencka)	Wdrażane stopniowo	Wybierany automatycznie
Google AI Studio	Dostępne teraz	`gemini-3.1-pro-preview`
Vertex AI	Dostępne teraz	`gemini-3.1-pro-preview`
Gemini API	Dostępne teraz	`gemini-3.1-pro-preview`
Gemini CLI	Dostępne teraz	`gemini-3.1-pro-preview`
Antigravity	Dostępne teraz	Wybierany automatycznie
Android Studio	Dostępne teraz	Wybierany automatycznie
GitHub Copilot	Public preview	Do wyboru
NotebookLM	Subskrybenci Pro/Ultra	Wybierany automatycznie

Szybki start z API

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Endpoint dla niestandardowych narzędzi

Google uruchomiło również specjalistyczny punkt końcowy dla lepszej wydajności narzędzi:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Używaj tego endpointu przy budowaniu agentów, którzy w dużym stopniu polegają na wywoływaniu funkcji i korzystaniu z narzędzi.

Co to oznacza

Wyścig o rozumowanie nabiera tempa

W ciągu 13 dni wydano trzy modele klasy frontier:

6 lutego: Claude Opus 4.6 (Anthropic)

17 lutego: Claude Sonnet 4.6 (Anthropic)

19 lutego: Gemini 3.1 Pro (Google)

Każdy z nich rości sobie prawo do bycia liderem w różnych obszarach. Krajobraz modeli ulega fragmentacji — żaden pojedynczy model nie dominuje już we wszystkim.

Najlepsze w swojej klasie rozumowanie w budżetowej cenie

Wynik 77,1% w ARC-AGI-2 modelu Gemini 3.1 Pro to najwyższy dostępny wynik rozumowania przy najniższej cenie (2 USD / 12 USD). W zadaniach wymagających nowatorskiego rozwiązywania problemów, abstrakcyjnego rozumowania lub analizy naukowej jest to wybór oczywisty.

Parytet w programowaniu

Z wynikiem 80,6% w SWE-bench (kontra 80,8% Opus 4.6 i 79,6% Sonnet 4.6), Gemini 3.1 Pro po raz pierwszy staje się konkurencyjne w programowaniu. Poprzednie modele Gemini znacznie ustępowały Claude w tym benchmarku.

Brakujący element: Korzystanie z komputera

Gemini 3.1 Pro nie posiada wyników w OSWorld (korzystanie z komputera). Claude Sonnet 4.6 prowadzi w tej dziedzinie z wynikiem 72,5%. Jeśli Twój workflow obejmuje automatyzację przeglądarki, wypełnianie formularzy lub sterowanie pulpitem, Claude pozostaje jedyną realną opcją.

Dla programistów tworzących produkty

Praktyczne wnioski:

Najtańsze rozumowanie: 0,44 USD/sesja vs 0,60 USD (Sonnet) vs 0,80 USD (GPT-5.2)

Najlepszy do zadań naukowych/analitycznych: 94,3% w GPQA Diamond to najwyższy dostępny wynik

Konkurencyjny w programowaniu: 80,6% w SWE-bench niweluje dystans do Claude

Przewaga multimodalna: Natywne przetwarzanie wideo/audio, któremu Claude i GPT nie dorównują

Status Preview: To jeszcze nie jest wersja GA — spodziewaj się ulepszeń przed ogólną dostępnością

Budujesz z AI? Y Build integruje się z Twoimi ulubionymi narzędziami AI do programowania, a następnie obsługuje wdrażanie, filmy produktowe Demo Cut, AI SEO i analitykę — pełny stos od kodu do wzrostu. Zacznij za darmo.

Źródła:

TL;DR

Google wydało Gemini 3.1 Pro (preview) 19 lutego 2026 roku. Kluczowe liczby:

ARC-AGI-2: 77,1% — ponad dwukrotnie więcej niż Gemini 3 Pro (31,1%), pokonuje Opus 4.6 (68,8%) i GPT-5.2 (52,9%)
GPQA Diamond: 94,3% — prowadzi wśród wszystkich modeli w naukach ścisłych na poziomie akademickim
SWE-bench: 80,6% — dorównuje Opus 4.6 (80,8%) w programowaniu
Cena: 2 USD / 12 USD za 1 mln tokenów — najtańszy model klasy frontier
Kontekst 1M tokenów — bez zmian względem Gemini 3 Pro
Prowadzi w 13 z 16 benchmarków ocenianych przez Google
Dostępny już teraz w wersji preview: AI Studio, Vertex AI, Gemini CLI, aplikacja Gemini

Co ogłosiło Google

Blog Google opisuje go jako zaprojektowany do „zadań, w których prosta odpowiedź nie wystarcza” — złożonego, wieloetapowego rozumowania, syntezy danych i workflow opartych na agentach.

Pełne zestawienie benchmarków

Gdzie Gemini 3.1 Pro prowadzi (13 z 16 benchmarków)

Benchmark	Co testuje	Gemini 3.1 Pro	Najlepszy konkurent
ARC-AGI-2	Nowatorskie rozumowanie	77,1%	Opus 4.6: 68,8%
GPQA Diamond	Nauki akademickie	94,3%	GPT-5.2: 92,4%
BrowseComp	Agentowe wyszukiwanie w sieci	85,9%	Opus 4.6: 84,0%
Terminal-Bench 2.0	Programowanie w terminalu	68,5%	Opus 4.6: 65,4%
APEX-Agents	Zdolności agentowe	33,5%	Opus 4.6: 29,8%
MCP Atlas	Użycie narzędzi	69,2%	—
t2-bench Telecom	Specyficzne dla domeny	99,3%	—
SWE-bench Verified	Programowanie	80,6%	Opus 4.6: 80,8%
MRCR v2	Długi kontekst	84,9%	Sonnet 4.6: 84,9% (remis)

Gdzie konkurenci wciąż wygrywają

Benchmark	Co testuje	Zwycięzca	Gemini 3.1 Pro
GDPval-AA (Elo)	Zadania biurowe	Sonnet 4.6: 1633	Nie ujawniono
Terminal-Bench 2.0	Zaawansowane programowanie w terminalu	GPT-5.3-Codex: 77,3%	68,5%
SWE-Bench Pro	Zaawansowane programowanie	GPT-5.3-Codex: 56,8%	Nie ujawniono
OSWorld	Korzystanie z komputera	Sonnet 4.6: 72,5%	Nie testowano

Skok w rozumowaniu w kontekście

Model	ARC-AGI-2	Data
Gemini 3 Pro	31,1%	Listopad 2025
GPT-5.2	52,9%	Grudzień 2025
Claude Opus 4.6	68,8%	Luty 2026
Gemini 3.1 Pro	77,1%	Luty 2026

Gemini 3.1 Pro przeskoczyło z 31,1% do 77,1% w jednej wersji — to poprawa o 148%. Wynika to z integracji technik rozszerzonego rozumowania Deep Think z modelem bazowym.

Co się zmieniło względem Gemini 3 Pro

1. Integracja Deep Think

2. Drastycznie lepsze rozumowanie

Liczby mówią same za siebie:

Benchmark	Gemini 3 Pro	Gemini 3.1 Pro	Poprawa
ARC-AGI-2	31,1%	77,1%	+148%
GPQA Diamond	~88%	94,3%	+7%
APEX-Agents	18,4%	33,5%	+82%

3. Lepsza wydajność agentowa

4. Utrzymana siła multimodalności

Cennik

Taka sama cena jak Gemini 3 Pro — bezpłatna aktualizacja:

Rozmiar kontekstu	Wejście (za 1 mln tokenów)	Wyjście (za 1 mln tokenów)
≤200K tokenów	2,00 USD	12,00 USD
>200K tokenów	4,00 USD	18,00 USD

Porównanie z konkurencją

Model	Wejście	Wyjście	Koszt względny
Gemini 3.1 Pro	2,00 USD	12,00 USD	1x
Claude Sonnet 4.6	3,00 USD	15,00 USD	1,5x
GPT-5.2	5,00 USD	15,00 USD	2,0x (wejście)
Claude Opus 4.6	15,00 USD	75,00 USD	7,5x

Gemini 3.1 Pro to najtańszy model klasy frontier — o 33% tańszy od Sonnet 4.6 na wejściu i o 20% tańszy na wyjściu.

Koszt sesji (100K wejście + 20K wyjście)

Model	Koszt
Gemini 3.1 Pro	0,44 USD
Claude Sonnet 4.6	0,60 USD
GPT-5.2	0,80 USD
Claude Opus 4.6	3,00 USD

Dodatkowa optymalizacja kosztów:

Tryb Batch: 50% zniżki (0,22 USD/sesja)

Context caching: Odczyty z pamięci podręcznej kosztują 10% ceny bazowej

Dostępność

Gdzie można go użyć

Platforma	Status	ID modelu
Aplikacja Gemini (konsumencka)	Wdrażane stopniowo	Wybierany automatycznie
Google AI Studio	Dostępne teraz	`gemini-3.1-pro-preview`
Vertex AI	Dostępne teraz	`gemini-3.1-pro-preview`
Gemini API	Dostępne teraz	`gemini-3.1-pro-preview`
Gemini CLI	Dostępne teraz	`gemini-3.1-pro-preview`
Antigravity	Dostępne teraz	Wybierany automatycznie
Android Studio	Dostępne teraz	Wybierany automatycznie
GitHub Copilot	Public preview	Do wyboru
NotebookLM	Subskrybenci Pro/Ultra	Wybierany automatycznie

Szybki start z API

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Endpoint dla niestandardowych narzędzi

Google uruchomiło również specjalistyczny punkt końcowy dla lepszej wydajności narzędzi:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Używaj tego endpointu przy budowaniu agentów, którzy w dużym stopniu polegają na wywoływaniu funkcji i korzystaniu z narzędzi.

Co to oznacza

Wyścig o rozumowanie nabiera tempa

W ciągu 13 dni wydano trzy modele klasy frontier:

6 lutego: Claude Opus 4.6 (Anthropic)

17 lutego: Claude Sonnet 4.6 (Anthropic)

19 lutego: Gemini 3.1 Pro (Google)

Każdy z nich rości sobie prawo do bycia liderem w różnych obszarach. Krajobraz modeli ulega fragmentacji — żaden pojedynczy model nie dominuje już we wszystkim.

Najlepsze w swojej klasie rozumowanie w budżetowej cenie

Parytet w programowaniu

Brakujący element: Korzystanie z komputera

Dla programistów tworzących produkty

Praktyczne wnioski:

Najtańsze rozumowanie: 0,44 USD/sesja vs 0,60 USD (Sonnet) vs 0,80 USD (GPT-5.2)

Najlepszy do zadań naukowych/analitycznych: 94,3% w GPQA Diamond to najwyższy dostępny wynik

Konkurencyjny w programowaniu: 80,6% w SWE-bench niweluje dystans do Claude

Przewaga multimodalna: Natywne przetwarzanie wideo/audio, któremu Claude i GPT nie dorównują

Status Preview: To jeszcze nie jest wersja GA — spodziewaj się ulepszeń przed ogólną dostępnością

Źródła: