Gemini 3.1 Pro: Google'ın Mantık Yürütme Sıçraması Açıklandı

Kısaca (TL;DR)

Google, 19 Şubat 2026'da Gemini 3.1 Pro (ön izleme) sürümünü yayınladı. Temel rakamlar:

ARC-AGI-2: %77,1 — Gemini 3 Pro'nun (%31,1) iki katından fazla, Opus 4.6 (%68,8) ve GPT-5.2'yi (%52,9) geride bırakıyor
GPQA Diamond: %94,3 — Lisansüstü düzeyde bilimde tüm modellerin önünde
SWE-bench: %80,6 — Kodlama konusunda Opus 4.6 (%80,8) ile eşleşiyor
Fiyat: M token başına 2$/12$ — En ucuz öncü (frontier) model
1M token bağlam (context) — Gemini 3 Pro ile aynı kaldı
Google tarafından değerlendirilen 16 benchmark'ın 13'ünde lider
Şu an ön izlemede mevcut: AI Studio, Vertex AI, Gemini CLI, Gemini uygulaması

Google Ne Duyurdu

19 Şubat 2026'da Google, model versiyonlamasındaki ilk ".1" artışı olan Gemini 3.1 Pro'yu yayınladı. Bu model, Gemini 3 Deep Think serisindeki teknikleri daha erişilebilir ve daha hızlı bir modele entegre ederek Gemini 3 Pro (Kasım 2025) üzerine inşa edildi.

Google'ın blogu, modeli "basit bir yanıtın yeterli olmadığı görevler" — karmaşık çok adımlı mantık yürütme, veri sentezi ve ajan tabanlı iş akışları — için tasarlandığını tanımlıyor.

Başlık verisi: Yeni soyut mantık yürütme benchmark'ı olan ARC-AGI-2'de %77,1. Bu, Gemini 3 Pro'nun %31,1'lik skorunun iki katından fazla ve hem Opus 4.6 (%68,8) hem de GPT-5.2'nin (%52,9) önemli ölçüde önünde. VentureBeat bunu "talep üzerine ayarlanabilir mantık yürütme özelliğine sahip bir Deep Think Mini" olarak adlandırıyor.

Tam Benchmark Analizi

Gemini 3.1 Pro'nun Lider Olduğu Alanlar (16 benchmark'ın 13'ü)

Benchmark	Neyi Test Eder	Gemini 3.1 Pro	En İyi Rakip
ARC-AGI-2	Yeni mantık yürütme	%77,1	Opus 4.6: %68,8
GPQA Diamond	Lisansüstü bilim	%94,3	GPT-5.2: %92,4
BrowseComp	Ajan tabanlı web araması	%85,9	Opus 4.6: %84,0
Terminal-Bench 2.0	Terminal kodlama	%68,5	Opus 4.6: %65,4
APEX-Agents	Ajan yetenekleri	%33,5	Opus 4.6: %29,8
MCP Atlas	Araç kullanımı	%69,2	—
t2-bench Telecom	Alana özgü	%99,3	—
SWE-bench Verified	Kodlama	%80,6	Opus 4.6: %80,8
MRCR v2	Uzun bağlam	%84,9	Sonnet 4.6: %84,9 (berabere)

Rakiplerin Hala Kazandığı Alanlar

Benchmark	Neyi Test Eder	Kazanan	Gemini 3.1 Pro
GDPval-AA (Elo)	Ofis görevleri	Sonnet 4.6: 1633	Açıklanmadı
Terminal-Bench 2.0	Yoğun terminal kodlama	GPT-5.3-Codex: %77,3	%68,5
SWE-Bench Pro	Gelişmiş kodlama	GPT-5.3-Codex: %56,8	Açıklanmadı
OSWorld	Bilgisayar kullanımı	Sonnet 4.6: %72,5	Test edilmedi

Bağlam İçinde Mantık Yürütme Sıçraması

ARC-AGI-2, bir modelin daha önce hiç görmediği problemleri çözme yeteneğini ölçer — eğitim verilerinden örüntü eşleştirme değil, saf soyut mantık yürütme. Gemini'nin ne kadar hızlı geliştiği aşağıda görülmektedir:

Model	ARC-AGI-2	Tarih
Gemini 3 Pro	%31,1	Kas 2025
GPT-5.2	%52,9	Ara 2025
Claude Opus 4.6	%68,8	Şub 2026
Gemini 3.1 Pro	%77,1	Şub 2026

Gemini 3.1 Pro, tek bir versiyonda %31,1'den %77,1'e sıçradı — bu %148'lik bir iyileşme demektir. Bu, Deep Think'in genişletilmiş mantık yürütme tekniklerinin temel modele entegre edilmesinden kaynaklanmaktadır.

Gemini 3 Pro ile Karşılaştırıldığında Neler Değişti

1. Deep Think Entegrasyonu

Gemini 3 Deep Think, genişletilmiş mantık yürütme için optimize edilmiş ayrı ve daha yavaş bir modeldi. Gemini 3.1 Pro, bu teknikleri ayarlanabilir mantık yürütme derinliği ile standart modele dahil ediyor. Çoğu görev için Deep Think gecikmesi yaşamadan Deep Think düzeyinde mantık yürütme elde edersiniz.

2. Önemli Ölçüde Daha İyi Mantık Yürütme

Rakamlar her şeyi anlatıyor:

Benchmark	Gemini 3 Pro	Gemini 3.1 Pro	İyileşme
ARC-AGI-2	%31,1	%77,1	+%148
GPQA Diamond	~%88	%94,3	+%7
APEX-Agents	%18,4	%33,5	+%82

3. Daha İyi Ajan Performansı

APEX-Agents (%33,5) ve MCP Atlas (%69,2) skorları, Gemini 3.1 Pro'nun otonom bir ajan olarak önemli ölçüde daha yetenekli olduğunu gösteriyor — araç kullanımı, çok adımlı planlama ve kendi kendini düzeltme konularının tamamı iyileştirildi.

4. Korunan Multimodal Güç

Gemini 3.1 Pro, Gemini'nin temel avantajını koruyor: tek bir bağlam içinde metin, görüntü, ses ve videonun yerel (native) multimodal işlenmesi. Başka hiçbir öncü model bu fiyat noktasında bu genişliği sunamıyor.

Fiyatlandırma

Gemini 3 Pro ile aynı fiyat — ücretsiz bir yükseltme:

Bağlam Boyutu	Giriş (M token başına)	Çıkış (M token başına)
≤200K token	$2.00	$12.00
>200K token	$4.00	$18.00

Rakiplerle Karşılaştırma

Model	Giriş	Çıkış	Göreceli Maliyet
Gemini 3.1 Pro	$2.00	$12.00	1x
Claude Sonnet 4.6	$3.00	$15.00	1.5x
GPT-5.2	$5.00	$15.00	2.0x (giriş)
Claude Opus 4.6	$15.00	$75.00	7.5x

Gemini 3.1 Pro, en ucuz öncü modeldir — girişte Sonnet 4.6'dan %33, çıkışta ise %20 daha ucuzdur.

Oturum Başına Maliyet (100K giriş + 20K çıkış)

Model	Maliyet
Gemini 3.1 Pro	$0.44
Claude Sonnet 4.6	$0.60
GPT-5.2	$0.80
Claude Opus 4.6	$3.00

Ek maliyet optimizasyonu:

Batch modu: %50 indirim (oturum başına 0,22$)

Context caching: Önbelleğe alınmış giriş okumaları, temel fiyatın %10'una mal olur

Kullanılabilirlik

Nerede Kullanılır

Platform	Durum	Model Kimliği
Gemini Uygulaması (tüketici)	Dağıtılıyor	Otomatik seçilir
Google AI Studio	Şu an mevcut	`gemini-3.1-pro-preview`
Vertex AI	Şu an mevcut	`gemini-3.1-pro-preview`
Gemini API	Şu an mevcut	`gemini-3.1-pro-preview`
Gemini CLI	Şu an mevcut	`gemini-3.1-pro-preview`
Antigravity	Şu an mevcut	Otomatik seçilir
Android Studio	Şu an mevcut	Otomatik seçilir
GitHub Copilot	Genel ön izleme	Seçilebilir
NotebookLM	Pro/Ultra aboneleri	Otomatik seçilir

API Hızlı Başlangıç

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("İstediğiniz istemi buraya yazın")
print(response.text)

Özel Araçlar (Custom Tools) Uç Noktası

Google ayrıca daha iyi araç performansı için özelleştirilmiş bir uç nokta başlattı:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Fonksiyon çağırma ve araç kullanımına büyük ölçüde dayanan ajanlar oluştururken bu uç noktayı kullanın.

Bu Ne Anlama Geliyor

Mantık Yürütme Yarışı Kızışıyor

13 gün içinde üç öncü model yayınlandı:

6 Şubat: Claude Opus 4.6 (Anthropic)

17 Şubat: Claude Sonnet 4.6 (Anthropic)

19 Şubat: Gemini 3.1 Pro (Google)

Her biri farklı alanlarda liderlik iddia ediyor. Model ortamı parçalanıyor — artık tek bir model her şeye hükmetmiyor.

Bütçe Dostu Fiyatlandırma ile Sınıfının En İyi Mantık Yürütme Yeteneği

Gemini 3.1 Pro'nun %77,1'lik ARC-AGI-2 skoru, en düşük fiyata (2$/12$) sunulan en yüksek mantık yürütme skorudur. Yeni problem çözme, soyut mantık yürütme veya bilimsel analiz gerektiren görevler için net bir tercihtir.

Kodlama Eşitliği

SWE-bench'teki %80,6'lık skoru ile (Opus 4.6'nın %80,8'ine ve Sonnet 4.6'nın %79,6'sına karşı), Gemini 3.1 Pro ilk kez kodlama konusunda rekabetçi hale geldi. Önceki Gemini modelleri bu benchmark'ta Claude'un önemli ölçüde gerisindeydi.

Eksik Parça: Bilgisayar Kullanımı

Gemini 3.1 Pro, OSWorld (bilgisayar kullanımı) üzerinde benchmark sunmuyor. Claude Sonnet 4.6, %72,5 ile bu yetenekte liderliğini sürdürüyor. İş akışınız tarayıcı otomasyonu, form doldurma veya masaüstü kontrolü içeriyorsa, Claude hala tek geçerli seçenek olmaya devam ediyor.

Ürün Geliştiren Geliştiriciler İçin

Pratik sonuçlar:

En ucuz mantık yürütme: Oturum başına 0,44$ (Sonnet 0,60$, GPT-5.2 0,80$)

Bilimsel/analitik görevler için en iyisi: %94,3 GPQA Diamond, mevcut en yüksek skordur

Kodlamada rekabetçi: %80,6 SWE-bench, Claude ile olan farkı kapatıyor

Multimodal avantajı: Claude ve GPT'nin eşleşmediği yerel video/ses işleme

Ön izleme durumu: Henüz genel kullanıma (GA) sunulmadı — genel kullanımdan önce iyileştirmeler bekleyin

AI ile mi geliştiriyorsunuz? Y Build geliştirme için tercih ettiğiniz AI araçlarıyla entegre olur, ardından dağıtımı, Demo Cut ürün videolarını, AI SEO'yu ve analitiği halleder — koddan büyümeye kadar tam yığın (full stack). Ücretsiz başlayın.

Kaynaklar:

Kısaca (TL;DR)

Google, 19 Şubat 2026'da Gemini 3.1 Pro (ön izleme) sürümünü yayınladı. Temel rakamlar:

ARC-AGI-2: %77,1 — Gemini 3 Pro'nun (%31,1) iki katından fazla, Opus 4.6 (%68,8) ve GPT-5.2'yi (%52,9) geride bırakıyor
GPQA Diamond: %94,3 — Lisansüstü düzeyde bilimde tüm modellerin önünde
SWE-bench: %80,6 — Kodlama konusunda Opus 4.6 (%80,8) ile eşleşiyor
Fiyat: M token başına 2$/12$ — En ucuz öncü (frontier) model
1M token bağlam (context) — Gemini 3 Pro ile aynı kaldı
Google tarafından değerlendirilen 16 benchmark'ın 13'ünde lider
Şu an ön izlemede mevcut: AI Studio, Vertex AI, Gemini CLI, Gemini uygulaması

Google Ne Duyurdu

Tam Benchmark Analizi

Gemini 3.1 Pro'nun Lider Olduğu Alanlar (16 benchmark'ın 13'ü)

Benchmark	Neyi Test Eder	Gemini 3.1 Pro	En İyi Rakip
ARC-AGI-2	Yeni mantık yürütme	%77,1	Opus 4.6: %68,8
GPQA Diamond	Lisansüstü bilim	%94,3	GPT-5.2: %92,4
BrowseComp	Ajan tabanlı web araması	%85,9	Opus 4.6: %84,0
Terminal-Bench 2.0	Terminal kodlama	%68,5	Opus 4.6: %65,4
APEX-Agents	Ajan yetenekleri	%33,5	Opus 4.6: %29,8
MCP Atlas	Araç kullanımı	%69,2	—
t2-bench Telecom	Alana özgü	%99,3	—
SWE-bench Verified	Kodlama	%80,6	Opus 4.6: %80,8
MRCR v2	Uzun bağlam	%84,9	Sonnet 4.6: %84,9 (berabere)

Rakiplerin Hala Kazandığı Alanlar

Benchmark	Neyi Test Eder	Kazanan	Gemini 3.1 Pro
GDPval-AA (Elo)	Ofis görevleri	Sonnet 4.6: 1633	Açıklanmadı
Terminal-Bench 2.0	Yoğun terminal kodlama	GPT-5.3-Codex: %77,3	%68,5
SWE-Bench Pro	Gelişmiş kodlama	GPT-5.3-Codex: %56,8	Açıklanmadı
OSWorld	Bilgisayar kullanımı	Sonnet 4.6: %72,5	Test edilmedi

Bağlam İçinde Mantık Yürütme Sıçraması

Model	ARC-AGI-2	Tarih
Gemini 3 Pro	%31,1	Kas 2025
GPT-5.2	%52,9	Ara 2025
Claude Opus 4.6	%68,8	Şub 2026
Gemini 3.1 Pro	%77,1	Şub 2026

Gemini 3 Pro ile Karşılaştırıldığında Neler Değişti

1. Deep Think Entegrasyonu

2. Önemli Ölçüde Daha İyi Mantık Yürütme

Rakamlar her şeyi anlatıyor:

Benchmark	Gemini 3 Pro	Gemini 3.1 Pro	İyileşme
ARC-AGI-2	%31,1	%77,1	+%148
GPQA Diamond	~%88	%94,3	+%7
APEX-Agents	%18,4	%33,5	+%82

3. Daha İyi Ajan Performansı

4. Korunan Multimodal Güç

Fiyatlandırma

Gemini 3 Pro ile aynı fiyat — ücretsiz bir yükseltme:

Bağlam Boyutu	Giriş (M token başına)	Çıkış (M token başına)
≤200K token	$2.00	$12.00
>200K token	$4.00	$18.00

Rakiplerle Karşılaştırma

Model	Giriş	Çıkış	Göreceli Maliyet
Gemini 3.1 Pro	$2.00	$12.00	1x
Claude Sonnet 4.6	$3.00	$15.00	1.5x
GPT-5.2	$5.00	$15.00	2.0x (giriş)
Claude Opus 4.6	$15.00	$75.00	7.5x

Gemini 3.1 Pro, en ucuz öncü modeldir — girişte Sonnet 4.6'dan %33, çıkışta ise %20 daha ucuzdur.

Oturum Başına Maliyet (100K giriş + 20K çıkış)

Model	Maliyet
Gemini 3.1 Pro	$0.44
Claude Sonnet 4.6	$0.60
GPT-5.2	$0.80
Claude Opus 4.6	$3.00

Ek maliyet optimizasyonu:

Batch modu: %50 indirim (oturum başına 0,22$)

Context caching: Önbelleğe alınmış giriş okumaları, temel fiyatın %10'una mal olur

Kullanılabilirlik

Nerede Kullanılır

Platform	Durum	Model Kimliği
Gemini Uygulaması (tüketici)	Dağıtılıyor	Otomatik seçilir
Google AI Studio	Şu an mevcut	`gemini-3.1-pro-preview`
Vertex AI	Şu an mevcut	`gemini-3.1-pro-preview`
Gemini API	Şu an mevcut	`gemini-3.1-pro-preview`
Gemini CLI	Şu an mevcut	`gemini-3.1-pro-preview`
Antigravity	Şu an mevcut	Otomatik seçilir
Android Studio	Şu an mevcut	Otomatik seçilir
GitHub Copilot	Genel ön izleme	Seçilebilir
NotebookLM	Pro/Ultra aboneleri	Otomatik seçilir

API Hızlı Başlangıç

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("İstediğiniz istemi buraya yazın")
print(response.text)

Özel Araçlar (Custom Tools) Uç Noktası

Google ayrıca daha iyi araç performansı için özelleştirilmiş bir uç nokta başlattı:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Fonksiyon çağırma ve araç kullanımına büyük ölçüde dayanan ajanlar oluştururken bu uç noktayı kullanın.

Bu Ne Anlama Geliyor

Mantık Yürütme Yarışı Kızışıyor

13 gün içinde üç öncü model yayınlandı:

6 Şubat: Claude Opus 4.6 (Anthropic)

17 Şubat: Claude Sonnet 4.6 (Anthropic)

19 Şubat: Gemini 3.1 Pro (Google)

Her biri farklı alanlarda liderlik iddia ediyor. Model ortamı parçalanıyor — artık tek bir model her şeye hükmetmiyor.

Bütçe Dostu Fiyatlandırma ile Sınıfının En İyi Mantık Yürütme Yeteneği

Kodlama Eşitliği

Eksik Parça: Bilgisayar Kullanımı

Ürün Geliştiren Geliştiriciler İçin

Pratik sonuçlar:

En ucuz mantık yürütme: Oturum başına 0,44$ (Sonnet 0,60$, GPT-5.2 0,80$)

Bilimsel/analitik görevler için en iyisi: %94,3 GPQA Diamond, mevcut en yüksek skordur

Kodlamada rekabetçi: %80,6 SWE-bench, Claude ile olan farkı kapatıyor

Multimodal avantajı: Claude ve GPT'nin eşleşmediği yerel video/ses işleme

Ön izleme durumu: Henüz genel kullanıma (GA) sunulmadı — genel kullanımdan önce iyileştirmeler bekleyin

Kaynaklar: