Gemini 3.1 Pro: Wyjaśniamy skok Google w dziedzinie rozumowania
Google wydało Gemini 3.1 Pro 19 lutego 2026 r. — model uzyskał wynik 77,1% w teście ARC-AGI-2, ponad dwukrotnie przewyższając Gemini 3 Pro. Pełne zestawienie benchmarków, ceny (2 USD / 12 USD za 1 mln tokenów), dostępność i znaczenie dla programistów.
TL;DR
Google wydało Gemini 3.1 Pro (preview) 19 lutego 2026 roku. Kluczowe liczby:
- ARC-AGI-2: 77,1% — ponad dwukrotnie więcej niż Gemini 3 Pro (31,1%), pokonuje Opus 4.6 (68,8%) i GPT-5.2 (52,9%)
- GPQA Diamond: 94,3% — prowadzi wśród wszystkich modeli w naukach ścisłych na poziomie akademickim
- SWE-bench: 80,6% — dorównuje Opus 4.6 (80,8%) w programowaniu
- Cena: 2 USD / 12 USD za 1 mln tokenów — najtańszy model klasy frontier
- Kontekst 1M tokenów — bez zmian względem Gemini 3 Pro
- Prowadzi w 13 z 16 benchmarków ocenianych przez Google
- Dostępny już teraz w wersji preview: AI Studio, Vertex AI, Gemini CLI, aplikacja Gemini
Co ogłosiło Google
19 lutego 2026 r. Google wydało Gemini 3.1 Pro — pierwszy przyrost wersji o „.1” w ich nazewnictwie modeli. Bazuje on na Gemini 3 Pro (listopad 2025), integrując techniki z serii Gemini 3 Deep Think w bardziej dostępnym i szybszym modelu.
Blog Google opisuje go jako zaprojektowany do „zadań, w których prosta odpowiedź nie wystarcza” — złożonego, wieloetapowego rozumowania, syntezy danych i workflow opartych na agentach.
Główna statystyka: 77,1% w ARC-AGI-2, benchmarku dla nowatorskiego rozumowania abstrakcyjnego. To ponad dwukrotność wyniku Gemini 3 Pro (31,1%) i wynik znacznie wyższy niż w przypadku Opus 4.6 (68,8%) oraz GPT-5.2 (52,9%). VentureBeat nazywa go „Deep Think Mini z regulowanym rozumowaniem na żądanie”.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Pełne zestawienie benchmarków
Gdzie Gemini 3.1 Pro prowadzi (13 z 16 benchmarków)
| Benchmark | Co testuje | Gemini 3.1 Pro | Najlepszy konkurent |
|---|---|---|---|
| ARC-AGI-2 | Nowatorskie rozumowanie | 77,1% | Opus 4.6: 68,8% |
| GPQA Diamond | Nauki akademickie | 94,3% | GPT-5.2: 92,4% |
| BrowseComp | Agentowe wyszukiwanie w sieci | 85,9% | Opus 4.6: 84,0% |
| Terminal-Bench 2.0 | Programowanie w terminalu | 68,5% | Opus 4.6: 65,4% |
| APEX-Agents | Zdolności agentowe | 33,5% | Opus 4.6: 29,8% |
| MCP Atlas | Użycie narzędzi | 69,2% | — |
| t2-bench Telecom | Specyficzne dla domeny | 99,3% | — |
| SWE-bench Verified | Programowanie | 80,6% | Opus 4.6: 80,8% |
| MRCR v2 | Długi kontekst | 84,9% | Sonnet 4.6: 84,9% (remis) |
Gdzie konkurenci wciąż wygrywają
| Benchmark | Co testuje | Zwycięzca | Gemini 3.1 Pro |
|---|---|---|---|
| GDPval-AA (Elo) | Zadania biurowe | Sonnet 4.6: 1633 | Nie ujawniono |
| Terminal-Bench 2.0 | Zaawansowane programowanie w terminalu | GPT-5.3-Codex: 77,3% | 68,5% |
| SWE-Bench Pro | Zaawansowane programowanie | GPT-5.3-Codex: 56,8% | Nie ujawniono |
| OSWorld | Korzystanie z komputera | Sonnet 4.6: 72,5% | Nie testowano |
Skok w rozumowaniu w kontekście
ARC-AGI-2 mierzy zdolność modelu do rozwiązywania problemów, których nigdy wcześniej nie widział — czyste rozumowanie abstrakcyjne, a nie dopasowywanie wzorców z danych treningowych. Oto jak szybko poprawiło się Gemini:
| Model | ARC-AGI-2 | Data |
|---|---|---|
| Gemini 3 Pro | 31,1% | Listopad 2025 |
| GPT-5.2 | 52,9% | Grudzień 2025 |
| Claude Opus 4.6 | 68,8% | Luty 2026 |
| Gemini 3.1 Pro | 77,1% | Luty 2026 |
Gemini 3.1 Pro przeskoczyło z 31,1% do 77,1% w jednej wersji — to poprawa o 148%. Wynika to z integracji technik rozszerzonego rozumowania Deep Think z modelem bazowym.
Co się zmieniło względem Gemini 3 Pro
1. Integracja Deep Think
Gemini 3 Deep Think był oddzielnym, wolniejszym modelem zoptymalizowanym pod kątem rozszerzonego rozumowania. Gemini 3.1 Pro wprowadza te techniki do standardowego modelu, oferując regulowaną głębię rozumowania. Otrzymujesz rozumowanie na poziomie Deep Think bez typowych dla niego opóźnień w większości zadań.
2. Drastycznie lepsze rozumowanie
Liczby mówią same za siebie:
| Benchmark | Gemini 3 Pro | Gemini 3.1 Pro | Poprawa |
|---|---|---|---|
| ARC-AGI-2 | 31,1% | 77,1% | +148% |
| GPQA Diamond | ~88% | 94,3% | +7% |
| APEX-Agents | 18,4% | 33,5% | +82% |
3. Lepsza wydajność agentowa
Wyniki APEX-Agents (33,5%) i MCP Atlas (69,2%) pokazują, że Gemini 3.1 Pro jest znacznie bardziej zdolny jako autonomiczny agent — poprawiono korzystanie z narzędzi, wieloetapowe planowanie i autokorektę.
4. Utrzymana siła multimodalności
Gemini 3.1 Pro zachowuje główną przewagę Gemini: natywne przetwarzanie multimodalne tekstu, obrazów, dźwięku i wideo w ramach jednego kontekstu. Żaden inny model klasy frontier nie dorównuje tej wszechstronności w tej cenie.
Cennik
Taka sama cena jak Gemini 3 Pro — bezpłatna aktualizacja:
| Rozmiar kontekstu | Wejście (za 1 mln tokenów) | Wyjście (za 1 mln tokenów) |
|---|---|---|
| ≤200K tokenów | 2,00 USD | 12,00 USD |
| >200K tokenów | 4,00 USD | 18,00 USD |
Porównanie z konkurencją
| Model | Wejście | Wyjście | Koszt względny |
|---|---|---|---|
| Gemini 3.1 Pro | 2,00 USD | 12,00 USD | 1x |
| Claude Sonnet 4.6 | 3,00 USD | 15,00 USD | 1,5x |
| GPT-5.2 | 5,00 USD | 15,00 USD | 2,0x (wejście) |
| Claude Opus 4.6 | 15,00 USD | 75,00 USD | 7,5x |
Gemini 3.1 Pro to najtańszy model klasy frontier — o 33% tańszy od Sonnet 4.6 na wejściu i o 20% tańszy na wyjściu.
Koszt sesji (100K wejście + 20K wyjście)
| Model | Koszt |
|---|---|
| Gemini 3.1 Pro | 0,44 USD |
| Claude Sonnet 4.6 | 0,60 USD |
| GPT-5.2 | 0,80 USD |
| Claude Opus 4.6 | 3,00 USD |
Dodatkowa optymalizacja kosztów:
- Tryb Batch: 50% zniżki (0,22 USD/sesja)
- Context caching: Odczyty z pamięci podręcznej kosztują 10% ceny bazowej
Dostępność
Gdzie można go użyć
| Platforma | Status | ID modelu |
|---|---|---|
| Aplikacja Gemini (konsumencka) | Wdrażane stopniowo | Wybierany automatycznie |
| Google AI Studio | Dostępne teraz | gemini-3.1-pro-preview |
| Vertex AI | Dostępne teraz | gemini-3.1-pro-preview |
| Gemini API | Dostępne teraz | gemini-3.1-pro-preview |
| Gemini CLI | Dostępne teraz | gemini-3.1-pro-preview |
| Antigravity | Dostępne teraz | Wybierany automatycznie |
| Android Studio | Dostępne teraz | Wybierany automatycznie |
| GitHub Copilot | Public preview | Do wyboru |
| NotebookLM | Subskrybenci Pro/Ultra | Wybierany automatycznie |
Szybki start z API
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")
response = model.generate_content("Your prompt here")
print(response.text)
Endpoint dla niestandardowych narzędzi
Google uruchomiło również specjalistyczny punkt końcowy dla lepszej wydajności narzędzi:
model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")
Używaj tego endpointu przy budowaniu agentów, którzy w dużym stopniu polegają na wywoływaniu funkcji i korzystaniu z narzędzi.
Co to oznacza
Wyścig o rozumowanie nabiera tempa
W ciągu 13 dni wydano trzy modele klasy frontier:
- 6 lutego: Claude Opus 4.6 (Anthropic)
- 17 lutego: Claude Sonnet 4.6 (Anthropic)
- 19 lutego: Gemini 3.1 Pro (Google)
Każdy z nich rości sobie prawo do bycia liderem w różnych obszarach. Krajobraz modeli ulega fragmentacji — żaden pojedynczy model nie dominuje już we wszystkim.
Najlepsze w swojej klasie rozumowanie w budżetowej cenie
Wynik 77,1% w ARC-AGI-2 modelu Gemini 3.1 Pro to najwyższy dostępny wynik rozumowania przy najniższej cenie (2 USD / 12 USD). W zadaniach wymagających nowatorskiego rozwiązywania problemów, abstrakcyjnego rozumowania lub analizy naukowej jest to wybór oczywisty.
Parytet w programowaniu
Z wynikiem 80,6% w SWE-bench (kontra 80,8% Opus 4.6 i 79,6% Sonnet 4.6), Gemini 3.1 Pro po raz pierwszy staje się konkurencyjne w programowaniu. Poprzednie modele Gemini znacznie ustępowały Claude w tym benchmarku.
Brakujący element: Korzystanie z komputera
Gemini 3.1 Pro nie posiada wyników w OSWorld (korzystanie z komputera). Claude Sonnet 4.6 prowadzi w tej dziedzinie z wynikiem 72,5%. Jeśli Twój workflow obejmuje automatyzację przeglądarki, wypełnianie formularzy lub sterowanie pulpitem, Claude pozostaje jedyną realną opcją.
Dla programistów tworzących produkty
Praktyczne wnioski:
- Najtańsze rozumowanie: 0,44 USD/sesja vs 0,60 USD (Sonnet) vs 0,80 USD (GPT-5.2)
- Najlepszy do zadań naukowych/analitycznych: 94,3% w GPQA Diamond to najwyższy dostępny wynik
- Konkurencyjny w programowaniu: 80,6% w SWE-bench niweluje dystans do Claude
- Przewaga multimodalna: Natywne przetwarzanie wideo/audio, któremu Claude i GPT nie dorównują
- Status Preview: To jeszcze nie jest wersja GA — spodziewaj się ulepszeń przed ogólną dostępnością
Budujesz z AI? Y Build integruje się z Twoimi ulubionymi narzędziami AI do programowania, a następnie obsługuje wdrażanie, filmy produktowe Demo Cut, AI SEO i analitykę — pełny stos od kodu do wzrostu. Zacznij za darmo.
Źródła:
- Google Blog: Gemini 3.1 Pro announcement
- Google DeepMind: Gemini 3.1 Pro Model Card
- 9to5Google: Gemini 3.1 Pro for complex problem-solving
- VentureBeat: Gemini 3.1 Pro first impressions
- MarkTechPost: Gemini 3.1 Pro 77.1% ARC-AGI-2
- OfficeChai: Gemini 3.1 Pro Benchmarks
- GitHub Blog: Gemini 3.1 Pro in GitHub Copilot
- The Decoder: Gemini 3.1 Pro reasoning
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.