Gemini 3.1 Pro vs Sonnet 4.6 vs GPT-5.2: 2026

Özet (TL;DR)

Gemini 3.1 Pro	Sonnet 4.6	GPT-5.2
Muhakeme (ARC-AGI-2)	%77,1	%58,3	%52,9
Bilim (GPQA)	%94,3	%89,9	%92,4
Kodlama (SWE-bench)	%80,6	%79,6	%80,0
Bilgisayar Kullanımı (OSWorld)	Yok	%72,5	%38,2
Ofis Görevleri (Elo)	Yok	1633	1462
Bağlam (Context)	1M (yerel)	1M (beta)	400K
Girdi Fiyatı	$2/M	$3/M	$5/M
Çıktı Fiyatı	$12/M	$15/M	$15/M

Hızlı Karar:

Soyut muhakeme + bilim + en düşük fiyat → Gemini 3.1 Pro
Bilgisayar kullanımı + ofis görevleri + ajan güvenliği → Claude Sonnet 4.6
Saf matematik + hız → GPT-5.2

Şubat 2026: 13 Günde Üç Öncü Model

Yapay zeka model dünyası az önce yeniden şekillendi. İki haftadan kısa bir süre içinde:

6 Şubat: Claude Opus 4.6 (Anthropic)
17 Şubat: Claude Sonnet 4.6 (Anthropic)
19 Şubat: Gemini 3.1 Pro (Google)

Her biri farklı kategorilerde liderlik iddiasında bulunuyor. Artık hiçbir model her şeye tek başına hakim değil. Bu rehber, gerçek benchmark verileriyle her modelin tam olarak nerede kazandığını analiz ediyor.

Muhakeme: Gemini 3.1 Pro Domine Ediyor

ARC-AGI-2 (Özgün Problem Çözme)

Bu benchmark, saf muhakemeyi test eder; yani modelin daha önce hiç görmediği ve ezberleyebileceği bir kalıba sahip olmayan problemleri çözme yeteneğini ölçer.

Model	Skor
Gemini 3.1 Pro	%77,1
Claude Opus 4.6	%68,8
Claude Sonnet 4.6	%58,3
GPT-5.2	%52,9
Gemini 3 Pro	%31,1

Gemini 3.1 Pro, Opus 4.6'nın 8,3 puan, GPT-5.2'nin ise 24,2 puan önünde liderlik ediyor. Bu, şu anki öncü benchmarklar arasındaki en geniş farktır.

Gemini 3 Pro (%31,1) seviyesinden 3.1 Pro (%77,1) seviyesine geçişteki %148'lik bu artış, Deep Think muhakeme tekniklerinin temel modele entegre edilmesinden kaynaklanıyor.

GPQA Diamond (Lisansüstü Seviye Bilim)

Model	Skor
Gemini 3.1 Pro	%94,3
GPT-5.2	%92,4
Claude Opus 4.6	%91,3
Claude Sonnet 4.6	%89,9

Gemini; fizik, kimya ve biyoloji gibi lisansüstü seviyedeki uzmanlık gerektiren bilimsel muhakeme konularında lider konumda.

Kazanan: Gemini 3.1 Pro (muhakemede belirgin üstünlük)

Kodlama: Üçlü Beraberlik

SWE-bench Verified (Gerçek Dünya Yazılım Mühendisliği)

Model	Skor
Claude Opus 4.6	%80,8
Gemini 3.1 Pro	%80,6
GPT-5.2	%80,0
Claude Sonnet 4.6	%79,6

Dört modelin tamamı 1,2 puanlık bir aralıkta yer alıyor. Bu durum etkili bir beraberlik anlamına geliyor; Gemini ilk kez kodlama alanında Claude ile rekabet edebilir hale geldi.

Terminal-Bench 2.0 (Ajan Tabanlı Terminal Kodlama)

Model	Skor
GPT-5.3-Codex	%77,3
Gemini 3.1 Pro	%68,5
Claude Opus 4.6	%65,4
Claude Sonnet 4.6	%59,1

Gemini 3.1 Pro, terminal tabanlı ajan kodlamasında her iki Claude modelini de geride bırakıyor. Sadece özelleşmiş GPT-5.3-Codex modeli (standart GPT-5.2 değil) ondan daha iyi performans gösteriyor.

Geliştirici Araç Entegrasyonu

Model	Mevcut Araçlar
Gemini 3.1 Pro	Gemini CLI, GitHub Copilot, Android Studio, AI Studio
Claude Sonnet 4.6	Claude Code, Cursor, GitHub Copilot
GPT-5.2	GitHub Copilot, ChatGPT, Codex CLI

Üç modelin tamamı GitHub Copilot üzerinden kullanılabiliyor. Gemini, mobil geliştiriciler için Android Studio entegrasyonu gibi benzersiz bir avantaja sahip.

Kazanan: Berabere (Gemini farkı kapattı, tüm modeller rekabetçi)

Bilgisayar Kullanımı: Claude'un Özel Alanı

OSWorld (Bilgisayarları Kontrol Eden Yapay Zeka)

Model	Skor
Claude Sonnet 4.6	%72,5
Claude Opus 4.6	%72,7
GPT-5.2	%38,2
Gemini 3.1 Pro	Test edilmedi

Gemini 3.1 Pro genel amaçlı bilgisayar kullanımı yetenekleri sunmuyor. Claude Sonnet 4.6; tıklama, yazma, uygulamalar arasında gezinme ve form doldurma gibi işlemleri üretim aşamasına hazır bir doğrulukla yapabilen ve bilgisayarı güvenilir şekilde kontrol edebilen tek modeldir.

İş akışınız tarayıcı otomasyonu, eski sistemlerden veri çıkarma veya otomatik form doldurma içeriyorsa, tek gerçek seçenek Claude'dur.

Kazanan: Claude Sonnet 4.6 (rakipsiz)

Ajan Yetenekleri

Çoklu Araç Ajan Performansı

Benchmark	Gemini 3.1 Pro	Opus 4.6	GPT-5.2
APEX-Agents	%33,5	%29,8	%23,0
MCP Atlas (araç kullanımı)	%69,2	—	—
BrowseComp (web araması)	%85,9	%84,0	—

Gemini 3.1 Pro; çok adımlı planlama, araç kullanımı ve ajan tabanlı web araması benchmarklarında liderdir. APEX-Agents skoru (%33,5'e karşı Opus'un %29,8'i), karmaşık ortamlarda daha iyi otonom problem çözme yeteneğine işaret ediyor.

Ajanlar için Güvenlik

Claude Sonnet 4.6, prompt injection saldırılarına karşı direncini özellikle Opus seviyesine çıkardı; bu, ajanların güvenilmeyen web içeriklerini işlediği durumlarda kritik bir öneme sahiptir. Google, Gemini 3.1 Pro için ajan bağlamında karşılaştırılabilir güvenlik metrikleri yayınlamadı.

Kazanan: Gemini 3.1 Pro (benchmarklarda), Claude Sonnet 4.6 (güvenlikte)

Multimodal: Gemini'ın Temel Avantajı

Her Model Neleri İşleyebilir?

Girdi Türü	Gemini 3.1 Pro	Sonnet 4.6	GPT-5.2
Metin	Evet	Evet	Evet
Görsel	Evet	Evet	Evet
Ses	Evet (yerel)	Hayır	Evet
Video	Evet (yerel)	Hayır	Hayır
PDF'ler	Evet	Evet	Evet

Gemini 3.1 Pro, bağlam penceresi içinde 1 saate kadar videoyu ve 11 saate kadar sesi yerel olarak işleyebilir. Ne Claude ne de GPT videoyu yerel olarak işleyemez.

Video analizi, ses transkripsiyonu veya çok formatlı belge işleme içeren görevler için Gemini tek seçenektir.

Kazanan: Gemini 3.1 Pro (açık ara)

Bağlam Penceresi (Context Window)

Model	Bağlam Penceresi	Uzun Bağlam Skoru (MRCR v2)
Gemini 3.1 Pro	1M (yerel)	%84,9
Claude Sonnet 4.6	1M (beta)	%84,9 (berabere)
Claude Opus 4.6	1M (yerel)	%76,0
GPT-5.2	400K	—

Gemini ve Claude Sonnet, MRCR v2 testinde %84,9 skorla uzun bağlam performansında berabere kalıyor. Her iki model de GPT-5.2'nin 400K limitini önemli ölçüde geride bırakıyor.

Gemini'ın 1M bağlamı yerel (GA) olarak sunulurken, Claude'unki beta aşamasındadır. Garantili uzun bağlam güvenilirliği gerektiren üretim yükleri için Gemini bir adım öndedir.

Kazanan: Berabere (Gemini yerel vs Claude beta)

Fiyatlandırma: En Ucuzu Gemini

API Maliyet Karşılaştırması

Model	Girdi (/M token)	Çıktı (/M token)	Oturum Başına Maliyet*
Gemini 3.1 Pro	$2,00	$12,00	$0,44
Claude Sonnet 4.6	$3,00	$15,00	$0,60
GPT-5.2	$5,00	$15,00	$0,80
Claude Opus 4.6	$15,00	$75,00	$3,00

*Oturum = 100K girdi + 20K çıktı token'ı

Gemini 3.1 Pro, oturum başına Sonnet 4.6'dan %27, GPT-5.2'den ise %45 daha ucuzdur.

Ölçekli Kullanımda (100 oturum/gün, 30 gün)

Model	Aylık Maliyet
Gemini 3.1 Pro	$1.320
Gemini 3.1 Pro (batch)	$660
Claude Sonnet 4.6	$1.800
GPT-5.2	$2.400
Claude Opus 4.6	$9.000

Batch modu ile Gemini 3.1 Pro, günlük 100 oturum için aylık 660$ maliyete sahiptir; bu, Sonnet 4.6'nın 1.800$'lık maliyetinin yarısından bile azdır.

Kazanan: Gemini 3.1 Pro (en ucuz öncü model)

Ofis Görevleri ve Bilgi İşçiliği

GDPval-AA Elo (Gerçek Dünya Ofis Üretkenliği)

Model	Skor
Claude Sonnet 4.6	1633
Claude Opus 4.6	1606
GPT-5.2	1462
Gemini 3.1 Pro	Açıklanmadı

Claude; e-tablolar, formlar ve belge analizi gibi ofis otomasyonu konularında liderdir. Google, Gemini 3.1 Pro'nun bu benchmarktaki skorunu yayınlamadı, bu da bu alanda o kadar güçlü olmayabileceğini düşündürüyor.

Finance Agent v1.1

Model	Skor
Claude Sonnet 4.6	%63,3
Claude Opus 4.6	%60,1
GPT-5.2	%59,0
Gemini 3.1 Pro	Açıklanmadı

Kazanan: Claude Sonnet 4.6 (ofis/finans görevleri için)

Hangi Modeli Kullanmalısınız?

Şu Durumlarda Gemini 3.1 Pro'yu Seçin:

Soyut muhakeme — %77,1 ARC-AGI-2 skoru mevcut olanın en iyisidir
Bilimsel analiz — %94,3 GPQA Diamond skoru tüm modellere liderlik eder
Bütçe kritikse — $2/$12 en ucuz öncü model fiyatlandırmasıdır
Multimodal işleme — video ve ses analizi
Android geliştirme — yerel Android Studio entegrasyonu
Geniş bağlam — kanıtlanmış güvenilirliğe sahip yerel 1M bağlam penceresi

Şu Durumlarda Claude Sonnet 4.6'yı Seçin:

Bilgisayar kullanımı — %72,5 OSWorld skoru ile rakipsizdir
Ofis otomasyonu — e-tablolar, formlar, veri analizi (1633 Elo)
Ajan güvenliği — en iyi prompt injection direnci
Claude Code iş akışları — Sonnet 4.5'e göre %70 daha fazla tercih ediliyor
Finansal analiz — %63,3 Finance Agent skoru ile tüm modellerin önündedir
Talimat takibi — daha az halüsinasyon, daha az gereksiz detay (over-engineering)

Şu Durumlarda GPT-5.2'yi Seçin:

Saf matematik — %100 AIME 2025 skoru eşsizdir
OpenAI ekosistemi — ChatGPT Plus, Assistants API, Codex
Hızlı yanıtlar — basit sorgularda en düşük gecikme süresi (latency)
Mevcut entegrasyonlar — halihazırda OpenAI API'si üzerine inşa edilmiş sistemler

Çoklu Model Stratejisi

Modeller arasındaki fark çoğu benchmarkta daralırken, uzmanlaşmış yeteneklerde açılıyor. Gelişmekte olan en iyi uygulama şu şekildedir:

Görev	En İyi Model
Soyut muhakeme / araştırma	Gemini 3.1 Pro
Bilgisayar kullanımı / tarayıcı otomasyonu	Claude Sonnet 4.6
Karmaşık matematik	GPT-5.2
Ofis / finansal görevler	Claude Sonnet 4.6
Video / ses analizi	Gemini 3.1 Pro
Genel kodlama	Herhangi biri (tümü ≥%79,6)
Maliyet odaklı ajan filoları	Gemini 3.1 Pro
Derin kod tabanı refaktörü	Claude Opus 4.6

Sonuç

Şubat 2026, "her işe tek model" dönemini sona erdirdi. Gemini 3.1 Pro muhakeme ve fiyatta lider. Claude Sonnet 4.6 bilgisayar kullanımı ve ofis görevlerinde lider. GPT-5.2 ise matematikte lider. Her birinin net ve savunulabilir avantajları var.

Ürün geliştiren çoğu geliştirici için pratik cevap şudur: Genel görevler için üçünden birini seçin ve bir görev uzmanlık gerektirdiğinde o alanın uzmanına geçiş yapın.

Gerçek rekabet avantajı hangi modeli kullandığınız değil, ne kadar hızlı ürün çıkardığınızdır.

Daha hızlı ürün geliştirin. Y Build siz kodu yazdıktan sonra tüm stack'i yönetir: tek tıkla dağıtım (deploy), ürün videoları için Demo Cut, organik trafik için AI SEO ve büyümeyi takip etmek için analitik. Herhangi bir yapay zeka modeliyle çalışır. Ücretsiz başlayın.

Kaynaklar: