GPT-5.4 Rehberi: OpenAI'ın Otonom Ajan Modeli (2026)
GPT-5.4, OSWorld'de %75 puan alarak bilgisayar kullanımında insanları geride bıraktı. 1M bağlam, $2.50/MTok, 5 model varyantı. Tam benchmark sonuçları, fiyatlandırma ve karşılaştırma rehberi.
TL;DR
OpenAI, 5 Mart 2026'da GPT-5.4'ü piyasaya sürdü — otonom bilgisayar kullanımında insanları geride bırakan ilk genel amaçlı model. Temel istatistikler:
| Özellik | Detay |
|---|---|
| OSWorld-Verified | %75.0 — insan temel seviyesini (%72.4) aşıyor |
| SWE-bench Pro | %57.7 — güçlü kodlama, ancak Claude Opus 4.6'nın (%80.8) gerisinde |
| Bağlam Penceresi | 1.05M tokene kadar (272K standart, 1M genişletilmiş) |
| Bilgisayar Kullanımı | Yerleşik, son teknoloji — ilk kez genel bir modele dahil edildi |
| Token Verimliliği | Eşdeğer görevler için GPT-5.2'den önemli ölçüde daha az token |
| API Fiyatı | 1M token başına $2.50 giriş / $15.00 çıkış |
| Varyantlar | Standard, Thinking, Pro, Mini, Nano |
| Etkileşimli Düşünme | Önceden belirlenmiş plan + yanıt ortasında yönlendirme |
GPT-5.4 Nedir?
GPT-5.4, OpenAI'ın 5 Mart 2026'da yayınlanan amiral gemisi büyük dil modelidir. GPT-5.3 Codex'in kodlama yeteneklerini, çığır açan otonom bilgisayar kullanımı becerileri, 1 milyon tokenlik bağlam penceresi ve yeni bir etkileşimli düşünme sistemi ile birleştirir.
Ana haber: GPT-5.4, masaüstü bilgisayar görevlerinde insan performansını aşan ilk genel amaçlı yapay zeka modelidir. Uzman insan test kullanıcılarının %72.4 puan aldığı bir benchmark olan OSWorld-Verified'da %75.0 puan almıştır. Daha önce başka hiçbir model bu eşiği temiz bir şekilde geçememişti.
Bu, dört aydan kısa bir süre içinde GPT-5.2'ye (%47.3) göre 28 puanlık bir iyileşme anlamına geliyor. Model, ekran görüntülerinden ekran koordinatlarını çözümleyebilir ve doğrudan fare ve klavye komutları verebilir; bu da dosyalarda, tarayıcılarda, terminallerde ve üretkenlik yazılımlarında otonom olarak gezinmesine olanak tanır.
Temel Özellikler
Yerleşik Bilgisayar Kullanımı
Bilgisayar kontrolü için harici araçlara ihtiyaç duyan önceki modellerin aksine, GPT-5.4 yerleşik bilgisayar kullanımı yeteneklerine sahiptir. Codex uygulamasında ve API aracılığıyla model şunları yapabilir:
- Ekran görüntüleri ve klavye/fare eylemleriyle masaüstü ortamlarında gezinme
- Sıralı olarak birden fazla uygulama üzerinde çalışma
- Çok adımlı iş akışlarını tamamlama (dosya yönetimi, tarayıcı görevleri, terminal işlemleri)
- Hesap tabloları, sunumlar ve belgeler gibi üretkenlik yazılımlarını kullanma
1 Milyon Token Bağlam Penceresi
GPT-5.4, 1.05M tokene kadar bağlamı destekler. Standart pencere 272K tokendir; bu eşiği aşan istekler normal giriş oranının 2 katı fiyatla işlenir. Bu devasa bağlam, modelin uzun araç kullanım geçmişlerini, büyük kod tabanlarını veya genişletilmiş belge setlerini bellekte tutması gereken ajan tabanlı (agentic) iş akışları için kritiktir.
Etkileşimli Düşünme
GPT-5.4 Thinking yeni bir paradigma sunuyor: model, muhakemesine dair önceden belirlenmiş bir plan sunar ve siz onu yanıt ortasında yönlendirebilirsiniz. Baştan başlamadan talimatlar ekleyin, rotayı düzeltin veya yönü hassaslaştırın. Bu, karmaşık, çok adımlı görevler için önemli bir yaşam kalitesi iyileştirmesidir.
Geliştirilmiş Token Verimliliği
OpenAI, GPT-5.4'ün sorunları çözmek için GPT-5.2'ye kıyasla önemli ölçüde daha az token kullandığını ve olgusal hatalarda %33 azalma sağladığını bildiriyor. Üretim aşamasındaki dağıtımlar için bu, rekabetçi fiyatlandırmadan bağımsız olarak görev başına daha düşük maliyet anlamına gelir.
Benchmarks
GPT-5.4'ün Önde Olduğu Alanlar
| Benchmark | Neyi Test Eder | GPT-5.4 | En İyi Rakip |
|---|---|---|---|
| OSWorld-Verified | Masaüstü bilgisayar kullanımı | %75.0 | Claude Opus 4.6: %72.7 |
| Toolathlon | Çok adımlı araç/API kullanımı | En yüksek puan | — |
| GDPval | Bilgi işçiliği | %83 | — |
Tam Model Karşılaştırması
| Benchmark | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| OSWorld-Verified | %75.0 | %72.7 | N/A |
| SWE-bench Verified | ~%80 | %80.8 | %80.6 |
| SWE-bench Pro | %57.7 | ~%45 | %54.2 |
| ARC-AGI-2 | %52.9 | %68.8 | %77.1 |
| GDPval | %83 | — | — |
Rakamlar Ne Anlama Geliyor?
GPT-5.4, bilgisayar kullanımı, kodlama ve bilgi işçiliğini aynı anda öncü seviyede yürütebilen ilk modeldir. %75'lik OSWorld puanı en net kilometre taşıdır — bu, modelin uzman insanların bile zorlandığı her dört gerçek masaüstü görevinden üçünü tamamlayabildiği anlamına gelir.
Ancak, tablo nüanslıdır. SWE-bench Verified (gerçek dünya kodlaması) üzerinde Claude Opus 4.6 ve Gemini 3.1 Pro, sırasıyla %80.8 ve %80.6 ile GPT-5.4'ten önemli ölçüde daha iyi performans göstermektedir. Soyut muhakeme (ARC-AGI-2) konusunda ise GPT-5.4, Claude Opus 4.6'nın 16 puan, Gemini 3.1 Pro'nun ise 24 puandan fazla gerisindedir.
Çıkarım: GPT-5.4 otonom bilgisayar kontrolü ve pratik araç kullanımında kazanıyor, ancak her görev için en iyi model değil.
Model Varyantları ve Fiyatlandırma
GPT-5.4, her biri farklı kullanım durumlarını ve bütçeleri hedefleyen beş varyantla sunulur:
| Varyant | Giriş (1M token başına) | Çıkış (1M token başına) | En İyi Kullanım Alanı |
|---|---|---|---|
| GPT-5.4 Standard | $2.50 | $15.00 | Genel amaçlı, bilgisayar kullanımı, ajan iş akışları |
| GPT-5.4 Thinking | $2.50 | $15.00 | Etkileşimli plan yönlendirme ile karmaşık muhakeme |
| GPT-5.4 Pro | $30.00 | $180.00 | Hukuk, tıp, finans — maksimum doğruluk |
| GPT-5.4 Mini | $0.75 | $4.50 | Yüksek hacimli, gecikmeye duyarlı iş yükleri |
| GPT-5.4 Nano | Belirlenecek | Belirlenecek | Edge ve gömülü kullanım durumları |
- 272K tokeni aşan promptlar standart giriş ücretinin 2 katı üzerinden ücretlendirilir (Standard için $5.00/MTok).
- Bölgesel veri barındırma uç noktaları tüm varyantlarda %10 ek ücret taşır.
- GPT-5.4 Mini, ücretsiz ChatGPT kullanıcılarına sunulmaktadır; Nano ise yalnızca API üzerinden erişilebilirdir.
Maliyet Karşılaştırması: GPT-5.4 vs Claude Opus 4.6
Tipik bir günlük iş yükü için:
| GPT-5.4 | Claude Opus 4.6 | |
|---|---|---|
| Ort. günlük maliyet | ~$5.50 | ~$10.00 |
| Ort. aylık maliyet | ~$165 | ~$300 |
| Maliyet oranı | 1x | ~1.8x |
GPT-5.4, eşdeğer token işleme kapasitesi için Claude Opus 4.6'dan yaklaşık %50 daha ucuzdur. Mini varyantı bunu daha da ileri götürür — SWE-bench Pro'da %54.38 puan alırken yaklaşık 6 kat daha düşük maliyet sunar.
GPT-5.4 vs Claude Opus 4.6: Hangisi Ne Zaman Kullanılmalı?
Bu, Nisan 2026'da çoğu ekibin sorduğu sorudur. Cevap, iş yükünüze bağlıdır.
Şunlara İhtiyacınız Varsa GPT-5.4'ü Seçin:
- Masaüstü otomasyonu ve bilgisayar kullanımı — Opus 4.6 için %72.7'ye karşı %75.0 OSWorld
- Araç çağırma ve API orkestrasyonu — Toolathlon'da daha az adımda daha iyi doğruluk
- Maliyet verimliliği — Opus 4.6'nın token başına maliyetinin yaklaşık yarısı
- Token verimli muhakeme — Sorun başına daha az token, daha düşük faturalar demektir
- Hızlı prototipleme — Daha düşük genel giderle hızlı iterasyon
Şunlara İhtiyacınız Varsa Claude Opus 4.6'yı Seçin:
- Karmaşık çok dosyalı kod yeniden yapılandırma (refactoring) — %80.8 ile SWE-bench Verified'da lider
- Uzun bağlam tutarlılığı — Çok uzun bağlamlarda kaliteyi korumada daha güçlü
- Soyut ve özgün muhakeme — ARC-AGI-2'de 16 puanlık fark
- Ajan tabanlı arama ve derin kod mimarisi — Derin anlayış gerektiren görevlerde mükemmel
- Yazım kalitesi ve nüans — Chatbot Arena kullanıcı memnuniyetinde 1 numara
Karşılaştırma Özeti
| Boyut | Kazanan | Fark |
|---|---|---|
| Bilgisayar Kullanımı (OSWorld) | GPT-5.4 | %75.0 vs %72.7 |
| Kodlama (SWE-bench Verified) | Claude Opus 4.6 | %80.8 vs ~%80 |
| Soyut Muhakeme (ARC-AGI-2) | Claude Opus 4.6 | %68.8 vs %52.9 |
| Araç Çağırma (Toolathlon) | GPT-5.4 | Daha az adım, daha iyi doğruluk |
| Bilgi İşçiliği (GDPval) | GPT-5.4 | %83 |
| Fiyatlandırma | GPT-5.4 | ~%50 daha ucuz |
| Kullanıcı Memnuniyeti | Claude Opus 4.6 | #1 Chatbot Arena |
GPT-5.4'e Nasıl Erişilir?
GPT-5.4 şuralardan erişilebilirdir:
- ChatGPT — GPT-5.4 Thinking; Plus, Pro ve Team kullanıcıları için varsayılan modeldir. Mini, ücretsiz katman kullanıcıları için mevcuttur.
- OpenAI API — Beş varyantın tümüne standart completions ve chat uç noktaları üzerinden erişilebilir.
- Codex Uygulaması — Masaüstü ajanı ile tam bilgisayar kullanımı yetenekleri.
- OpenRouter — Rekabetçi fiyatlarla üçüncü taraf erişimi.
computer_use araç parametresini etkinleştirmeniz ve görüntü girişi olarak ekran görüntüleri sağlamanız gerekir. Model, uygulamanızın sistem olaylarına dönüştüreceği yapılandırılmış eylemler (click, type, scroll) döndürür.
SSS
GPT-5.4, Claude Opus 4.6'dan daha mı iyi?
Bu göreve bağlıdır. GPT-5.4 bilgisayar kullanımı, araç çağırma ve maliyet verimliliğinde kazanır. Claude Opus 4.6 ise karmaşık kodlama, soyut muhakeme ve yazım kalitesinde kazanır. Çoğu ekip için seçim, ana iş yükünüzün masaüstü otomasyonu (GPT-5.4) mu yoksa derin yazılım mühendisliği (Opus 4.6) mi olduğuna bağlıdır.
GPT-5.4'ün maliyeti ne kadar?
Standart modelin maliyeti milyon giriş tokeni başına $2.50 ve milyon çıkış tokeni başına $15.00'dır. Pro varyantı MTok başına $30/$180'dır. Mini ise $0.75/$4.50'dir. 272K tokeni aşan promptlar iki katı giriş ücretiyle faturalandırılır.
GPT-5.4 gerçekten bir bilgisayarı insanlardan daha iyi kullanabiliyor mu?
OSWorld-Verified benchmark'ında evet — uzman insan temel seviyesi olan %72.4'e karşı %75.0. Ancak benchmark'lar belirli görev kategorilerini ölçer. Gerçek dünyadaki bilgisayar kullanımı; muhakeme, bağlam ve uyum sağlama yeteneği gerektirir ki benchmark'lar bunları tam olarak kapsayamaz. Bunu, tüm insan bilgisayar kullanımının yerini alacak bir şeyden ziyade, yapılandırılmış masaüstü görevlerinde insanüstü bir yetenek olarak düşünmek en iyisidir.
GPT-5.4'ün bağlam penceresi nedir?
1.05 milyon tokene kadar. Standart katman 272K tokendir. 272K'nın üzerine çıkmak giriş token maliyetini ikiye katlar. Tam 1M bağlam, uzun etkileşim geçmişleri biriktiren ajan tabanlı iş akışları için kritiktir.
GPT-5.3 Codex'ten yükseltme yapmalı mıyım?
İş yükünüz bilgisayar kullanımı veya çoklu araç orkestrasyonu içeriyorsa, evet. OSWorld'de %64.7'den %75.0'e olan sıçrama oldukça büyüktür. Saf kodlama görevleri için GPT-5.3 Codex'e göre iyileşme daha kademelidir — SWE-bench Pro %56.8'den %57.7'ye yükselmiştir. Özel kullanım durumunuza göre değerlendirin.
Hangi model varyantları mevcut?
Beş tane: Standard, Thinking, Pro, Mini ve Nano. Standard ve Thinking aynı fiyatlandırmayı paylaşır ve çoğu kullanım durumu için ana modellerdir. Pro, maksimum doğruluk için premium katmandır. Mini, maliyet hassasiyeti olan üretim dağıtımlarını hedefler. Nano ise edge ve gömülü uygulamalar için tasarlanmıştır.
Sonuç
GPT-5.4, otonom yapay zeka ajanları için gerçek bir dönüm noktasını temsil ediyor. Masaüstü bilgisayar kullanımında uzman insanları geride bırakan ilk genel amaçlı modeldir ve bunu ana rakibinden %50 daha ucuz bir şekilde yapar. Beş varyantlı ürün yelpazesi, her bütçe ve gecikme gereksinimi için bir GPT-5.4 olduğu anlamına gelir.
Bununla birlikte, her şeyde en iyisi değildir. Claude Opus 4.6 karmaşık yazılım mühendisliği ve soyut muhakeme için daha güçlü bir seçenek olmaya devam etmektedir. Gemini 3.1 Pro hala birkaç muhakeme benchmark'ında lider konumdadır. Çoğu ekip için doğru cevap \"hangi model en iyisi\" değil, \"bu görev için hangi model en iyisi\" sorusudur.
Yapay zeka destekli ürünler geliştiriyorsanız ve altyapı işlerinde boğulmadan GPT-5.4 ve Claude Opus 4.6 gibi modellerden yararlanmak istiyorsanız, Y Build daha hızlı ürün sunmanıza yardımcı olur. Yapay zeka uygulamaları inşa etmeniz, dağıtmanız ve yinelemeniz için gerekli araçları ve platformu sağlıyoruz — böylece siz tesisatla değil, ürünle ilgilenebilirsiniz.
Kaynaklar: OpenAI GPT-5.4 Duyurusu, OpenAI API Fiyatlandırması, NxCode GPT-5.4 Tam Rehber, NxCode GPT-5.4 vs Claude Opus 4.6, DataCamp GPT-5.4 Genel Bakış, Artificial Analysis GPT-5.4, MindStudio Benchmark Karşılaştırması, Nerd Level Tech: GPT-5.4 İnsanları Geride Bırakıyor