Gemini 3.1 Pro vs Sonnet 4.6 vs GPT-5.2: 2026
Gemini 3.1 Pro vs Claude Sonnet 4.6 vs GPT-5.2 — kesin Şubat 2026 karşılaştırması. Muhakeme, kodlama, bilgisayar kullanımı, fiyatlandırma ve hangi yapay zeka modelinin ne için kullanılacağına dair yan yana benchmark'lar.
Özet (TL;DR)
| Gemini 3.1 Pro | Sonnet 4.6 | GPT-5.2 | |
|---|---|---|---|
| Muhakeme (ARC-AGI-2) | %77,1 | %58,3 | %52,9 |
| Bilim (GPQA) | %94,3 | %89,9 | %92,4 |
| Kodlama (SWE-bench) | %80,6 | %79,6 | %80,0 |
| Bilgisayar Kullanımı (OSWorld) | Yok | %72,5 | %38,2 |
| Ofis Görevleri (Elo) | Yok | 1633 | 1462 |
| Bağlam (Context) | 1M (yerel) | 1M (beta) | 400K |
| Girdi Fiyatı | $2/M | $3/M | $5/M |
| Çıktı Fiyatı | $12/M | $15/M | $15/M |
- Soyut muhakeme + bilim + en düşük fiyat → Gemini 3.1 Pro
- Bilgisayar kullanımı + ofis görevleri + ajan güvenliği → Claude Sonnet 4.6
- Saf matematik + hız → GPT-5.2
Şubat 2026: 13 Günde Üç Öncü Model
Yapay zeka model dünyası az önce yeniden şekillendi. İki haftadan kısa bir süre içinde:
- 6 Şubat: Claude Opus 4.6 (Anthropic)
- 17 Şubat: Claude Sonnet 4.6 (Anthropic)
- 19 Şubat: Gemini 3.1 Pro (Google)
Muhakeme: Gemini 3.1 Pro Domine Ediyor
ARC-AGI-2 (Özgün Problem Çözme)
Bu benchmark, saf muhakemeyi test eder; yani modelin daha önce hiç görmediği ve ezberleyebileceği bir kalıba sahip olmayan problemleri çözme yeteneğini ölçer.
| Model | Skor |
|---|---|
| Gemini 3.1 Pro | %77,1 |
| Claude Opus 4.6 | %68,8 |
| Claude Sonnet 4.6 | %58,3 |
| GPT-5.2 | %52,9 |
| Gemini 3 Pro | %31,1 |
Gemini 3.1 Pro, Opus 4.6'nın 8,3 puan, GPT-5.2'nin ise 24,2 puan önünde liderlik ediyor. Bu, şu anki öncü benchmarklar arasındaki en geniş farktır.
Gemini 3 Pro (%31,1) seviyesinden 3.1 Pro (%77,1) seviyesine geçişteki %148'lik bu artış, Deep Think muhakeme tekniklerinin temel modele entegre edilmesinden kaynaklanıyor.
GPQA Diamond (Lisansüstü Seviye Bilim)
| Model | Skor |
|---|---|
| Gemini 3.1 Pro | %94,3 |
| GPT-5.2 | %92,4 |
| Claude Opus 4.6 | %91,3 |
| Claude Sonnet 4.6 | %89,9 |
Gemini; fizik, kimya ve biyoloji gibi lisansüstü seviyedeki uzmanlık gerektiren bilimsel muhakeme konularında lider konumda.
Kazanan: Gemini 3.1 Pro (muhakemede belirgin üstünlük)Kodlama: Üçlü Beraberlik
SWE-bench Verified (Gerçek Dünya Yazılım Mühendisliği)
| Model | Skor |
|---|---|
| Claude Opus 4.6 | %80,8 |
| Gemini 3.1 Pro | %80,6 |
| GPT-5.2 | %80,0 |
| Claude Sonnet 4.6 | %79,6 |
Dört modelin tamamı 1,2 puanlık bir aralıkta yer alıyor. Bu durum etkili bir beraberlik anlamına geliyor; Gemini ilk kez kodlama alanında Claude ile rekabet edebilir hale geldi.
Terminal-Bench 2.0 (Ajan Tabanlı Terminal Kodlama)
| Model | Skor |
|---|---|
| GPT-5.3-Codex | %77,3 |
| Gemini 3.1 Pro | %68,5 |
| Claude Opus 4.6 | %65,4 |
| Claude Sonnet 4.6 | %59,1 |
Gemini 3.1 Pro, terminal tabanlı ajan kodlamasında her iki Claude modelini de geride bırakıyor. Sadece özelleşmiş GPT-5.3-Codex modeli (standart GPT-5.2 değil) ondan daha iyi performans gösteriyor.
Geliştirici Araç Entegrasyonu
| Model | Mevcut Araçlar |
|---|---|
| Gemini 3.1 Pro | Gemini CLI, GitHub Copilot, Android Studio, AI Studio |
| Claude Sonnet 4.6 | Claude Code, Cursor, GitHub Copilot |
| GPT-5.2 | GitHub Copilot, ChatGPT, Codex CLI |
Üç modelin tamamı GitHub Copilot üzerinden kullanılabiliyor. Gemini, mobil geliştiriciler için Android Studio entegrasyonu gibi benzersiz bir avantaja sahip.
Kazanan: Berabere (Gemini farkı kapattı, tüm modeller rekabetçi)Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Bilgisayar Kullanımı: Claude'un Özel Alanı
OSWorld (Bilgisayarları Kontrol Eden Yapay Zeka)
| Model | Skor |
|---|---|
| Claude Sonnet 4.6 | %72,5 |
| Claude Opus 4.6 | %72,7 |
| GPT-5.2 | %38,2 |
| Gemini 3.1 Pro | Test edilmedi |
Gemini 3.1 Pro genel amaçlı bilgisayar kullanımı yetenekleri sunmuyor. Claude Sonnet 4.6; tıklama, yazma, uygulamalar arasında gezinme ve form doldurma gibi işlemleri üretim aşamasına hazır bir doğrulukla yapabilen ve bilgisayarı güvenilir şekilde kontrol edebilen tek modeldir.
İş akışınız tarayıcı otomasyonu, eski sistemlerden veri çıkarma veya otomatik form doldurma içeriyorsa, tek gerçek seçenek Claude'dur.
Kazanan: Claude Sonnet 4.6 (rakipsiz)Ajan Yetenekleri
Çoklu Araç Ajan Performansı
| Benchmark | Gemini 3.1 Pro | Opus 4.6 | GPT-5.2 |
|---|---|---|---|
| APEX-Agents | %33,5 | %29,8 | %23,0 |
| MCP Atlas (araç kullanımı) | %69,2 | — | — |
| BrowseComp (web araması) | %85,9 | %84,0 | — |
Gemini 3.1 Pro; çok adımlı planlama, araç kullanımı ve ajan tabanlı web araması benchmarklarında liderdir. APEX-Agents skoru (%33,5'e karşı Opus'un %29,8'i), karmaşık ortamlarda daha iyi otonom problem çözme yeteneğine işaret ediyor.
Ajanlar için Güvenlik
Claude Sonnet 4.6, prompt injection saldırılarına karşı direncini özellikle Opus seviyesine çıkardı; bu, ajanların güvenilmeyen web içeriklerini işlediği durumlarda kritik bir öneme sahiptir. Google, Gemini 3.1 Pro için ajan bağlamında karşılaştırılabilir güvenlik metrikleri yayınlamadı.
Kazanan: Gemini 3.1 Pro (benchmarklarda), Claude Sonnet 4.6 (güvenlikte)Multimodal: Gemini'ın Temel Avantajı
Her Model Neleri İşleyebilir?
| Girdi Türü | Gemini 3.1 Pro | Sonnet 4.6 | GPT-5.2 |
|---|---|---|---|
| Metin | Evet | Evet | Evet |
| Görsel | Evet | Evet | Evet |
| Ses | Evet (yerel) | Hayır | Evet |
| Video | Evet (yerel) | Hayır | Hayır |
| PDF'ler | Evet | Evet | Evet |
Gemini 3.1 Pro, bağlam penceresi içinde 1 saate kadar videoyu ve 11 saate kadar sesi yerel olarak işleyebilir. Ne Claude ne de GPT videoyu yerel olarak işleyemez.
Video analizi, ses transkripsiyonu veya çok formatlı belge işleme içeren görevler için Gemini tek seçenektir.
Kazanan: Gemini 3.1 Pro (açık ara)Bağlam Penceresi (Context Window)
| Model | Bağlam Penceresi | Uzun Bağlam Skoru (MRCR v2) |
|---|---|---|
| Gemini 3.1 Pro | 1M (yerel) | %84,9 |
| Claude Sonnet 4.6 | 1M (beta) | %84,9 (berabere) |
| Claude Opus 4.6 | 1M (yerel) | %76,0 |
| GPT-5.2 | 400K | — |
Gemini ve Claude Sonnet, MRCR v2 testinde %84,9 skorla uzun bağlam performansında berabere kalıyor. Her iki model de GPT-5.2'nin 400K limitini önemli ölçüde geride bırakıyor.
Gemini'ın 1M bağlamı yerel (GA) olarak sunulurken, Claude'unki beta aşamasındadır. Garantili uzun bağlam güvenilirliği gerektiren üretim yükleri için Gemini bir adım öndedir.
Kazanan: Berabere (Gemini yerel vs Claude beta)Fiyatlandırma: En Ucuzu Gemini
API Maliyet Karşılaştırması
| Model | Girdi (/M token) | Çıktı (/M token) | Oturum Başına Maliyet* |
|---|---|---|---|
| Gemini 3.1 Pro | $2,00 | $12,00 | $0,44 |
| Claude Sonnet 4.6 | $3,00 | $15,00 | $0,60 |
| GPT-5.2 | $5,00 | $15,00 | $0,80 |
| Claude Opus 4.6 | $15,00 | $75,00 | $3,00 |
*Oturum = 100K girdi + 20K çıktı token'ı
Gemini 3.1 Pro, oturum başına Sonnet 4.6'dan %27, GPT-5.2'den ise %45 daha ucuzdur.
Ölçekli Kullanımda (100 oturum/gün, 30 gün)
| Model | Aylık Maliyet |
|---|---|
| Gemini 3.1 Pro | $1.320 |
| Gemini 3.1 Pro (batch) | $660 |
| Claude Sonnet 4.6 | $1.800 |
| GPT-5.2 | $2.400 |
| Claude Opus 4.6 | $9.000 |
Batch modu ile Gemini 3.1 Pro, günlük 100 oturum için aylık 660$ maliyete sahiptir; bu, Sonnet 4.6'nın 1.800$'lık maliyetinin yarısından bile azdır.
Kazanan: Gemini 3.1 Pro (en ucuz öncü model)Ofis Görevleri ve Bilgi İşçiliği
GDPval-AA Elo (Gerçek Dünya Ofis Üretkenliği)
| Model | Skor |
|---|---|
| Claude Sonnet 4.6 | 1633 |
| Claude Opus 4.6 | 1606 |
| GPT-5.2 | 1462 |
| Gemini 3.1 Pro | Açıklanmadı |
Claude; e-tablolar, formlar ve belge analizi gibi ofis otomasyonu konularında liderdir. Google, Gemini 3.1 Pro'nun bu benchmarktaki skorunu yayınlamadı, bu da bu alanda o kadar güçlü olmayabileceğini düşündürüyor.
Finance Agent v1.1
| Model | Skor |
|---|---|
| Claude Sonnet 4.6 | %63,3 |
| Claude Opus 4.6 | %60,1 |
| GPT-5.2 | %59,0 |
| Gemini 3.1 Pro | Açıklanmadı |
Hangi Modeli Kullanmalısınız?
Şu Durumlarda Gemini 3.1 Pro'yu Seçin:
- Soyut muhakeme — %77,1 ARC-AGI-2 skoru mevcut olanın en iyisidir
- Bilimsel analiz — %94,3 GPQA Diamond skoru tüm modellere liderlik eder
- Bütçe kritikse — $2/$12 en ucuz öncü model fiyatlandırmasıdır
- Multimodal işleme — video ve ses analizi
- Android geliştirme — yerel Android Studio entegrasyonu
- Geniş bağlam — kanıtlanmış güvenilirliğe sahip yerel 1M bağlam penceresi
Şu Durumlarda Claude Sonnet 4.6'yı Seçin:
- Bilgisayar kullanımı — %72,5 OSWorld skoru ile rakipsizdir
- Ofis otomasyonu — e-tablolar, formlar, veri analizi (1633 Elo)
- Ajan güvenliği — en iyi prompt injection direnci
- Claude Code iş akışları — Sonnet 4.5'e göre %70 daha fazla tercih ediliyor
- Finansal analiz — %63,3 Finance Agent skoru ile tüm modellerin önündedir
- Talimat takibi — daha az halüsinasyon, daha az gereksiz detay (over-engineering)
Şu Durumlarda GPT-5.2'yi Seçin:
- Saf matematik — %100 AIME 2025 skoru eşsizdir
- OpenAI ekosistemi — ChatGPT Plus, Assistants API, Codex
- Hızlı yanıtlar — basit sorgularda en düşük gecikme süresi (latency)
- Mevcut entegrasyonlar — halihazırda OpenAI API'si üzerine inşa edilmiş sistemler
Çoklu Model Stratejisi
Modeller arasındaki fark çoğu benchmarkta daralırken, uzmanlaşmış yeteneklerde açılıyor. Gelişmekte olan en iyi uygulama şu şekildedir:
| Görev | En İyi Model |
|---|---|
| Soyut muhakeme / araştırma | Gemini 3.1 Pro |
| Bilgisayar kullanımı / tarayıcı otomasyonu | Claude Sonnet 4.6 |
| Karmaşık matematik | GPT-5.2 |
| Ofis / finansal görevler | Claude Sonnet 4.6 |
| Video / ses analizi | Gemini 3.1 Pro |
| Genel kodlama | Herhangi biri (tümü ≥%79,6) |
| Maliyet odaklı ajan filoları | Gemini 3.1 Pro |
| Derin kod tabanı refaktörü | Claude Opus 4.6 |
Sonuç
Şubat 2026, "her işe tek model" dönemini sona erdirdi. Gemini 3.1 Pro muhakeme ve fiyatta lider. Claude Sonnet 4.6 bilgisayar kullanımı ve ofis görevlerinde lider. GPT-5.2 ise matematikte lider. Her birinin net ve savunulabilir avantajları var.
Ürün geliştiren çoğu geliştirici için pratik cevap şudur: Genel görevler için üçünden birini seçin ve bir görev uzmanlık gerektirdiğinde o alanın uzmanına geçiş yapın.
Gerçek rekabet avantajı hangi modeli kullandığınız değil, ne kadar hızlı ürün çıkardığınızdır.
Daha hızlı ürün geliştirin. Y Build siz kodu yazdıktan sonra tüm stack'i yönetir: tek tıkla dağıtım (deploy), ürün videoları için Demo Cut, organik trafik için AI SEO ve büyümeyi takip etmek için analitik. Herhangi bir yapay zeka modeliyle çalışır. Ücretsiz başlayın.
Kaynaklar:
- Google Blog: Gemini 3.1 Pro duyurusu
- OfficeChai: Gemini 3.1 Pro çoğu benchmarkta Claude Opus 4.6 ve GPT 5.2'yi geride bırakıyor
- VentureBeat: Gemini 3.1 Pro ilk izlenimler
- MarkTechPost: Gemini 3.1 Pro %77,1 ARC-AGI-2 skoru ile
- 9to5Google: Karmaşık problem çözme için Gemini 3.1 Pro
- Anthropic: Claude Sonnet 4.6
- GitHub Blog: GitHub Copilot'ta Gemini 3.1 Pro
- Trending Topics: Gemini 3.1 Pro bazı görevlerde Opus 4.6'nın gerisinde kalıyor
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.