Gemini 3.1 Pro: Googlen päättelykyvyn harppaus selitettynä
Google julkaisi Gemini 3.1 Pron 19. helmikuuta 2026 — se saavutti 77,1 % tuloksen ARC-AGI-2-testissä, mikä on yli tuplasti enemmän kuin Gemini 3 Pro. Kattava suorituskykyvertailu, hinnoittelu (2 $/12 $ per M tokenia), saatavuus ja mitä se tarkoittaa kehittäjille.
TL;DR
Google julkaisi Gemini 3.1 Pron (esiversio) 19. helmikuuta 2026. Tärkeimmät luvut:
- ARC-AGI-2: 77,1 % — yli kaksinkertainen Gemini 3 Prohon (31,1 %) verrattuna, voittaa Opus 4.6:n (68,8 %) ja GPT-5.2:n (52,9 %)
- GPQA Diamond: 94,3 % — johtaa kaikkia malleja maisteritason tieteessä
- SWE-bench: 80,6 % — vastaa Opus 4.6:tta (80,8 %) koodauksessa
- Hinta: 2 $/12 $ per M tokenia — halvin huippumalli (frontier model)
- 1M tokenin konteksti — ennallaan Gemini 3 Prosta
- Johtaa 13:ssa 16:sta Googlen arvioimasta suorituskykytestistä
- Saatavilla nyt esiversiona: AI Studio, Vertex AI, Gemini CLI, Gemini-sovellus
Mitä Google ilmoitti
- helmikuuta 2026 Google julkaisi Gemini 3.1 Pron — ensimmäisen ".1"-päivityksen malliensa versioinnissa. Se rakentuu Gemini 3 Pron (marraskuu 2025) päälle integroimalla Gemini 3 Deep Think -sarjan tekniikoita helpommin lähestyttävään ja nopeampaan malliin.
Pääasiallinen tilasto: 77,1 % ARC-AGI-2-testissä, joka mittaa uudenlaista abstraktia päättelykykyä. Se on yli tuplasti Gemini 3 Pron 31,1 % ja merkittävästi edellä sekä Opus 4.6:tta (68,8 %) että GPT-5.2:ta (52,9 %). VentureBeat kutsuu sitä "Deep Think Miniksi, jossa on säädettävä päättelykyky tarvittaessa."
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Kattava suorituskykyvertailu
Missä Gemini 3.1 Pro johtaa (13/16 testiä)
| Suorituskykytesti | Mitä se testaa | Gemini 3.1 Pro | Paras kilpailija |
|---|---|---|---|
| ARC-AGI-2 | Uusi päättely | 77,1 % | Opus 4.6: 68,8 % |
| GPQA Diamond | Maisteritason tiede | 94,3 % | GPT-5.2: 92,4 % |
| BrowseComp | Agenttipohjainen verkkohaku | 85,9 % | Opus 4.6: 84,0 % |
| Terminal-Bench 2.0 | Päätepohjainen koodaus | 68,5 % | Opus 4.6: 65,4 % |
| APEX-Agents | Agenttien kyvykkyydet | 33,5 % | Opus 4.6: 29,8 % |
| MCP Atlas | Työkalujen käyttö | 69,2 % | — |
| t2-bench Telecom | Toimialakohtainen | 99,3 % | — |
| SWE-bench Verified | Koodaus | 80,6 % | Opus 4.6: 80,8 % |
| MRCR v2 | Pitkä konteksti | 84,9 % | Sonnet 4.6: 84,9 % (tasapeli) |
Missä kilpailijat voittavat edelleen
| Suorituskykytesti | Mitä se testaa | Voittaja | Gemini 3.1 Pro |
|---|---|---|---|
| GDPval-AA (Elo) | Toimistotehtävät | Sonnet 4.6: 1633 | Ei ilmoitettu |
| Terminal-Bench 2.0 | Vaativa päätepohjainen koodaus | GPT-5.3-Codex: 77,3 % | 68,5 % |
| SWE-Bench Pro | Edistynyt koodaus | GPT-5.3-Codex: 56,8 % | Ei ilmoitettu |
| OSWorld | Tietokoneen käyttö | Sonnet 4.6: 72,5 % | Ei testattu |
Päättelykyvyn harppaus kontekstissa
ARC-AGI-2 mittaa mallin kykyä ratkaista ongelmia, joita se ei ole koskaan aiemmin nähnyt — puhdasta abstraktia päättelyä, ei opetusdatasta periytyvää mallien tunnistusta. Näin nopeasti Gemini parani:
| Malli | ARC-AGI-2 | Päivämäärä |
|---|---|---|
| Gemini 3 Pro | 31,1 % | Marraskuu 2025 |
| GPT-5.2 | 52,9 % | Joulukuu 2025 |
| Claude Opus 4.6 | 68,8 % | Helmikuu 2026 |
| Gemini 3.1 Pro | 77,1 % | Helmikuu 2026 |
Gemini 3.1 Pro hyppäsi 31,1 prosentista 77,1 prosenttiin yhdessä versiossa — 148 % parannus. Tämä johtuu Deep Thinkin laajennetun päättelyn tekniikoiden integroimisesta perusmalliin.
Mikä muuttui verrattuna Gemini 3 Prohon
1. Deep Think -integraatio
Gemini 3 Deep Think oli erillinen, hitaampi malli, joka oli optimoitu laajennettuun päättelyyn. Gemini 3.1 Pro leipoo nämä tekniikat vakiomalliin, jossa on säädettävä päättelysyvyys. Saat Deep Think -tason päättelyn ilman Deep Thinkin viivettä useimmissa tehtävissä.
2. Huomattavasti parempi päättelykyky
Luvut puhuvat puolestaan:
| Suorituskykytesti | Gemini 3 Pro | Gemini 3.1 Pro | Parannus |
|---|---|---|---|
| ARC-AGI-2 | 31,1 % | 77,1 % | +148 % |
| GPQA Diamond | ~88 % | 94,3 % | +7 % |
| APEX-Agents | 18,4 % | 33,5 % | +82 % |
3. Parempi agenttisuorituskyky
APEX-Agents (33,5 %) ja MCP Atlas (69,2 %) -tulokset osoittavat, että Gemini 3.1 Pro on huomattavasti kyvykkäämpi autonomisena agenttina — työkalujen käyttö, monivaiheinen suunnittelu ja itsensä korjaaminen ovat kaikki parantuneet.
4. Säilytetty multimodaalinen vahvuus
Gemini 3.1 Pro säilyttää Geminin keskeisen edun: natiivin multimodaalisen prosessoinnin tekstille, kuville, audiolle ja videolle yhdessä kontekstissa. Mikään muu huippumalli ei vastaa tätä laajuutta tässä hintapisteessä.
Hinnoittelu
Sama hinta kuin Gemini 3 Prolla — ilmainen päivitys:
| Kontekstin koko | Syöte (per M tokenia) | Tuloste (per M tokenia) |
|---|---|---|
| ≤200K tokenia | 2,00 $ | 12,00 $ |
| >200K tokenia | 4,00 $ | 18,00 $ |
Vertailu kilpailijoihin
| Malli | Syöte | Tuloste | Suhteellinen kustannus |
|---|---|---|---|
| Gemini 3.1 Pro | 2,00 $ | 12,00 $ | 1x |
| Claude Sonnet 4.6 | 3,00 $ | 15,00 $ | 1,5x |
| GPT-5.2 | 5,00 $ | 15,00 $ | 2,0x (syöte) |
| Claude Opus 4.6 | 15,00 $ | 75,00 $ | 7,5x |
Gemini 3.1 Pro on halvin huippumalli — 33 % halvempi kuin Sonnet 4.6 syötteessä ja 20 % halvempi tulosteessa.
Istuntokohtainen hinta (100K sisään + 20K ulos)
| Malli | Kustannus |
|---|---|
| Gemini 3.1 Pro | 0,44 $ |
| Claude Sonnet 4.6 | 0,60 $ |
| GPT-5.2 | 0,80 $ |
| Claude Opus 4.6 | 3,00 $ |
Muita kustannusoptimointeja:
- Batch mode (eräajo): 50 % alennus (0,22 $/istunto)
- Context caching (kontekstin välimuisti): Välimuistiin tallennetun syötteen luku maksaa 10 % perushinnasta
Saatavuus
Missä sitä voi käyttää
| Alusta | Tila | Mallin tunnus (Model ID) |
|---|---|---|
| Gemini-sovellus (kuluttajat) | Käyttöönotto meneillään | Automaattisesti valittu |
| Google AI Studio | Saatavilla nyt | gemini-3.1-pro-preview |
| Vertex AI | Saatavilla nyt | gemini-3.1-pro-preview |
| Gemini API | Saatavilla nyt | gemini-3.1-pro-preview |
| Gemini CLI | Saatavilla nyt | gemini-3.1-pro-preview |
| Antigravity | Saatavilla nyt | Automaattisesti valittu |
| Android Studio | Saatavilla nyt | Automaattisesti valittu |
| GitHub Copilot | Julkinen esiversio | Valittavissa |
| NotebookLM | Pro/Ultra-tilaajat | Automaattisesti valittu |
API-pikastartti
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")
response = model.generate_content("Your prompt here")
print(response.text)
Räätälöityjen työkalujen päätepiste
Google julkaisi myös erikoistuneen päätepisteen parempaa työkalujen suorituskykyä varten:
model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")
Käytä tätä päätepistettä, kun rakennat agentteja, jotka luottavat vahvasti funktioiden kutsumiseen ja työkalujen käyttöön.
Mitä tämä tarkoittaa
Päättelykilpailu kiihtyy
Kolme huippumallia julkaistiin 13 päivän sisällä:
- 6. helmikuuta: Claude Opus 4.6 (Anthropic)
- 17. helmikuuta: Claude Sonnet 4.6 (Anthropic)
- 19. helmikuuta: Gemini 3.1 Pro (Google)
Jokainen väittää johtajuutta eri osa-alueilla. Mallikenttä pirstoutuu — mikään yksittäinen malli ei enää hallitse kaikkea.
Luokkansa paras päättelykyky edulliseen hintaan
Gemini 3.1 Pron 77,1 % ARC-AGI-2 on korkein saatavilla oleva päättelytulos halvimmalla hinnalla (2 $/12 $). Tehtäviin, jotka vaativat uudenlaista ongelmanratkaisua, abstraktia päättelyä tai tieteellistä analyysia, se on selkeä valinta.
Tasapeli koodauksessa
80,6 % tuloksella SWE-bench-testissä (verrattuna Opus 4.6:n 80,8 % ja Sonnet 4.6:n 79,6 %), Gemini 3.1 Pro on nyt ensimmäistä kertaa kilpailukykyinen koodauksessa. Aiemmat Gemini-mallit jäivät tässä testissä merkittävästi Claudesta jälkeen.
Puuttuva palanen: Tietokoneen käyttö
Gemini 3.1 Prosta ei ole tuloksia OSWorld-testissä (tietokoneen käyttö). Claude Sonnet 4.6 johtaa tätä osa-aluetta 72,5 % tuloksella. Jos työnkulkusi sisältää selaimen automaatiota, lomakkeiden täyttöä tai työpöydän hallintaa, Claude on edelleen ainoa varteenotettava vaihtoehto.
Tuotteita rakentaville kehittäjille
Käytännön vaikutukset:
- Halvin päättely: 0,44 $/istunto vs. 0,60 $ (Sonnet) vs. 0,80 $ (GPT-5.2)
- Paras tieteellisiin/analyyttisiin tehtäviin: 94,3 % GPQA Diamond on korkein saatavilla oleva tulos
- Kilpailukykyinen koodauksessa: 80,6 % SWE-bench kuroo umpeen eron Claudeen
- Multimodaalinen etu: Natiivi video/audio-prosessointi, jota Claude ja GPT eivät vastaa
- Esiversio-tila: Ei vielä GA-vaiheessa (general availability) — odota parannuksia ennen yleistä julkaisua
Rakennatko tekoälyllä? Y Build integroituu suosikki-AI-työkaluihisi kehitystä varten ja hoitaa sitten julkaisun, Demo Cut -tuotevideot, AI SEO:n ja analytiikan — koko stack koodista kasvuun. Aloita ilmaiseksi.
Lähteet:
- Google Blog: Gemini 3.1 Pro announcement
- Google DeepMind: Gemini 3.1 Pro Model Card
- 9to5Google: Gemini 3.1 Pro for complex problem-solving
- VentureBeat: Gemini 3.1 Pro first impressions
- MarkTechPost: Gemini 3.1 Pro 77.1% ARC-AGI-2
- OfficeChai: Gemini 3.1 Pro Benchmarks
- GitHub Blog: Gemini 3.1 Pro in GitHub Copilot
- The Decoder: Gemini 3.1 Pro reasoning
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.