Gemini 3.1 Pro: Google'ın Mantık Yürütme Sıçraması Açıklandı
Google, 19 Şubat 2026'da Gemini 3.1 Pro'yu yayınladı — ARC-AGI-2'de %77,1 puan alarak Gemini 3 Pro'yu ikiye katladı. Tam benchmark analizi, fiyatlandırma (M token başına 2$/12$), kullanılabilirlik ve geliştiriciler için ne anlama geldiği.
Kısaca (TL;DR)
Google, 19 Şubat 2026'da Gemini 3.1 Pro (ön izleme) sürümünü yayınladı. Temel rakamlar:
- ARC-AGI-2: %77,1 — Gemini 3 Pro'nun (%31,1) iki katından fazla, Opus 4.6 (%68,8) ve GPT-5.2'yi (%52,9) geride bırakıyor
- GPQA Diamond: %94,3 — Lisansüstü düzeyde bilimde tüm modellerin önünde
- SWE-bench: %80,6 — Kodlama konusunda Opus 4.6 (%80,8) ile eşleşiyor
- Fiyat: M token başına 2$/12$ — En ucuz öncü (frontier) model
- 1M token bağlam (context) — Gemini 3 Pro ile aynı kaldı
- Google tarafından değerlendirilen 16 benchmark'ın 13'ünde lider
- Şu an ön izlemede mevcut: AI Studio, Vertex AI, Gemini CLI, Gemini uygulaması
Google Ne Duyurdu
19 Şubat 2026'da Google, model versiyonlamasındaki ilk ".1" artışı olan Gemini 3.1 Pro'yu yayınladı. Bu model, Gemini 3 Deep Think serisindeki teknikleri daha erişilebilir ve daha hızlı bir modele entegre ederek Gemini 3 Pro (Kasım 2025) üzerine inşa edildi.
Google'ın blogu, modeli "basit bir yanıtın yeterli olmadığı görevler" — karmaşık çok adımlı mantık yürütme, veri sentezi ve ajan tabanlı iş akışları — için tasarlandığını tanımlıyor.
Başlık verisi: Yeni soyut mantık yürütme benchmark'ı olan ARC-AGI-2'de %77,1. Bu, Gemini 3 Pro'nun %31,1'lik skorunun iki katından fazla ve hem Opus 4.6 (%68,8) hem de GPT-5.2'nin (%52,9) önemli ölçüde önünde. VentureBeat bunu "talep üzerine ayarlanabilir mantık yürütme özelliğine sahip bir Deep Think Mini" olarak adlandırıyor.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Tam Benchmark Analizi
Gemini 3.1 Pro'nun Lider Olduğu Alanlar (16 benchmark'ın 13'ü)
| Benchmark | Neyi Test Eder | Gemini 3.1 Pro | En İyi Rakip |
|---|---|---|---|
| ARC-AGI-2 | Yeni mantık yürütme | %77,1 | Opus 4.6: %68,8 |
| GPQA Diamond | Lisansüstü bilim | %94,3 | GPT-5.2: %92,4 |
| BrowseComp | Ajan tabanlı web araması | %85,9 | Opus 4.6: %84,0 |
| Terminal-Bench 2.0 | Terminal kodlama | %68,5 | Opus 4.6: %65,4 |
| APEX-Agents | Ajan yetenekleri | %33,5 | Opus 4.6: %29,8 |
| MCP Atlas | Araç kullanımı | %69,2 | — |
| t2-bench Telecom | Alana özgü | %99,3 | — |
| SWE-bench Verified | Kodlama | %80,6 | Opus 4.6: %80,8 |
| MRCR v2 | Uzun bağlam | %84,9 | Sonnet 4.6: %84,9 (berabere) |
Rakiplerin Hala Kazandığı Alanlar
| Benchmark | Neyi Test Eder | Kazanan | Gemini 3.1 Pro |
|---|---|---|---|
| GDPval-AA (Elo) | Ofis görevleri | Sonnet 4.6: 1633 | Açıklanmadı |
| Terminal-Bench 2.0 | Yoğun terminal kodlama | GPT-5.3-Codex: %77,3 | %68,5 |
| SWE-Bench Pro | Gelişmiş kodlama | GPT-5.3-Codex: %56,8 | Açıklanmadı |
| OSWorld | Bilgisayar kullanımı | Sonnet 4.6: %72,5 | Test edilmedi |
Bağlam İçinde Mantık Yürütme Sıçraması
ARC-AGI-2, bir modelin daha önce hiç görmediği problemleri çözme yeteneğini ölçer — eğitim verilerinden örüntü eşleştirme değil, saf soyut mantık yürütme. Gemini'nin ne kadar hızlı geliştiği aşağıda görülmektedir:
| Model | ARC-AGI-2 | Tarih |
|---|---|---|
| Gemini 3 Pro | %31,1 | Kas 2025 |
| GPT-5.2 | %52,9 | Ara 2025 |
| Claude Opus 4.6 | %68,8 | Şub 2026 |
| Gemini 3.1 Pro | %77,1 | Şub 2026 |
Gemini 3.1 Pro, tek bir versiyonda %31,1'den %77,1'e sıçradı — bu %148'lik bir iyileşme demektir. Bu, Deep Think'in genişletilmiş mantık yürütme tekniklerinin temel modele entegre edilmesinden kaynaklanmaktadır.
Gemini 3 Pro ile Karşılaştırıldığında Neler Değişti
1. Deep Think Entegrasyonu
Gemini 3 Deep Think, genişletilmiş mantık yürütme için optimize edilmiş ayrı ve daha yavaş bir modeldi. Gemini 3.1 Pro, bu teknikleri ayarlanabilir mantık yürütme derinliği ile standart modele dahil ediyor. Çoğu görev için Deep Think gecikmesi yaşamadan Deep Think düzeyinde mantık yürütme elde edersiniz.
2. Önemli Ölçüde Daha İyi Mantık Yürütme
Rakamlar her şeyi anlatıyor:
| Benchmark | Gemini 3 Pro | Gemini 3.1 Pro | İyileşme |
|---|---|---|---|
| ARC-AGI-2 | %31,1 | %77,1 | +%148 |
| GPQA Diamond | ~%88 | %94,3 | +%7 |
| APEX-Agents | %18,4 | %33,5 | +%82 |
3. Daha İyi Ajan Performansı
APEX-Agents (%33,5) ve MCP Atlas (%69,2) skorları, Gemini 3.1 Pro'nun otonom bir ajan olarak önemli ölçüde daha yetenekli olduğunu gösteriyor — araç kullanımı, çok adımlı planlama ve kendi kendini düzeltme konularının tamamı iyileştirildi.
4. Korunan Multimodal Güç
Gemini 3.1 Pro, Gemini'nin temel avantajını koruyor: tek bir bağlam içinde metin, görüntü, ses ve videonun yerel (native) multimodal işlenmesi. Başka hiçbir öncü model bu fiyat noktasında bu genişliği sunamıyor.
Fiyatlandırma
Gemini 3 Pro ile aynı fiyat — ücretsiz bir yükseltme:
| Bağlam Boyutu | Giriş (M token başına) | Çıkış (M token başına) |
|---|---|---|
| ≤200K token | $2.00 | $12.00 |
| >200K token | $4.00 | $18.00 |
Rakiplerle Karşılaştırma
| Model | Giriş | Çıkış | Göreceli Maliyet |
|---|---|---|---|
| Gemini 3.1 Pro | $2.00 | $12.00 | 1x |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 1.5x |
| GPT-5.2 | $5.00 | $15.00 | 2.0x (giriş) |
| Claude Opus 4.6 | $15.00 | $75.00 | 7.5x |
Gemini 3.1 Pro, en ucuz öncü modeldir — girişte Sonnet 4.6'dan %33, çıkışta ise %20 daha ucuzdur.
Oturum Başına Maliyet (100K giriş + 20K çıkış)
| Model | Maliyet |
|---|---|
| Gemini 3.1 Pro | $0.44 |
| Claude Sonnet 4.6 | $0.60 |
| GPT-5.2 | $0.80 |
| Claude Opus 4.6 | $3.00 |
Ek maliyet optimizasyonu:
- Batch modu: %50 indirim (oturum başına 0,22$)
- Context caching: Önbelleğe alınmış giriş okumaları, temel fiyatın %10'una mal olur
Kullanılabilirlik
Nerede Kullanılır
| Platform | Durum | Model Kimliği |
|---|---|---|
| Gemini Uygulaması (tüketici) | Dağıtılıyor | Otomatik seçilir |
| Google AI Studio | Şu an mevcut | gemini-3.1-pro-preview |
| Vertex AI | Şu an mevcut | gemini-3.1-pro-preview |
| Gemini API | Şu an mevcut | gemini-3.1-pro-preview |
| Gemini CLI | Şu an mevcut | gemini-3.1-pro-preview |
| Antigravity | Şu an mevcut | Otomatik seçilir |
| Android Studio | Şu an mevcut | Otomatik seçilir |
| GitHub Copilot | Genel ön izleme | Seçilebilir |
| NotebookLM | Pro/Ultra aboneleri | Otomatik seçilir |
API Hızlı Başlangıç
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")
response = model.generate_content("İstediğiniz istemi buraya yazın")
print(response.text)
Özel Araçlar (Custom Tools) Uç Noktası
Google ayrıca daha iyi araç performansı için özelleştirilmiş bir uç nokta başlattı:
model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")
Fonksiyon çağırma ve araç kullanımına büyük ölçüde dayanan ajanlar oluştururken bu uç noktayı kullanın.
Bu Ne Anlama Geliyor
Mantık Yürütme Yarışı Kızışıyor
13 gün içinde üç öncü model yayınlandı:
- 6 Şubat: Claude Opus 4.6 (Anthropic)
- 17 Şubat: Claude Sonnet 4.6 (Anthropic)
- 19 Şubat: Gemini 3.1 Pro (Google)
Her biri farklı alanlarda liderlik iddia ediyor. Model ortamı parçalanıyor — artık tek bir model her şeye hükmetmiyor.
Bütçe Dostu Fiyatlandırma ile Sınıfının En İyi Mantık Yürütme Yeteneği
Gemini 3.1 Pro'nun %77,1'lik ARC-AGI-2 skoru, en düşük fiyata (2$/12$) sunulan en yüksek mantık yürütme skorudur. Yeni problem çözme, soyut mantık yürütme veya bilimsel analiz gerektiren görevler için net bir tercihtir.
Kodlama Eşitliği
SWE-bench'teki %80,6'lık skoru ile (Opus 4.6'nın %80,8'ine ve Sonnet 4.6'nın %79,6'sına karşı), Gemini 3.1 Pro ilk kez kodlama konusunda rekabetçi hale geldi. Önceki Gemini modelleri bu benchmark'ta Claude'un önemli ölçüde gerisindeydi.
Eksik Parça: Bilgisayar Kullanımı
Gemini 3.1 Pro, OSWorld (bilgisayar kullanımı) üzerinde benchmark sunmuyor. Claude Sonnet 4.6, %72,5 ile bu yetenekte liderliğini sürdürüyor. İş akışınız tarayıcı otomasyonu, form doldurma veya masaüstü kontrolü içeriyorsa, Claude hala tek geçerli seçenek olmaya devam ediyor.
Ürün Geliştiren Geliştiriciler İçin
Pratik sonuçlar:
- En ucuz mantık yürütme: Oturum başına 0,44$ (Sonnet 0,60$, GPT-5.2 0,80$)
- Bilimsel/analitik görevler için en iyisi: %94,3 GPQA Diamond, mevcut en yüksek skordur
- Kodlamada rekabetçi: %80,6 SWE-bench, Claude ile olan farkı kapatıyor
- Multimodal avantajı: Claude ve GPT'nin eşleşmediği yerel video/ses işleme
- Ön izleme durumu: Henüz genel kullanıma (GA) sunulmadı — genel kullanımdan önce iyileştirmeler bekleyin
AI ile mi geliştiriyorsunuz? Y Build geliştirme için tercih ettiğiniz AI araçlarıyla entegre olur, ardından dağıtımı, Demo Cut ürün videolarını, AI SEO'yu ve analitiği halleder — koddan büyümeye kadar tam yığın (full stack). Ücretsiz başlayın.
Kaynaklar:
- Google Blog: Gemini 3.1 Pro duyurusu
- Google DeepMind: Gemini 3.1 Pro Model Kartı
- 9to5Google: Karmaşık problem çözme için Gemini 3.1 Pro
- VentureBeat: Gemini 3.1 Pro ilk izlenimler
- MarkTechPost: Gemini 3.1 Pro %77,1 ARC-AGI-2
- OfficeChai: Gemini 3.1 Pro Benchmarkları
- GitHub Blog: GitHub Copilot'ta Gemini 3.1 Pro
- The Decoder: Gemini 3.1 Pro mantık yürütme
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.