GPT-5.3 Codex: OpenAI'ın Otonom Kodlama Ajanı

TL;DR

OpenAI, 5 Şubat 2026'da — Anthropic'in Opus 4.6'yı çıkardığı gün — GPT-5.3 Codex'i yayınladı. Temel istatistikler:

Terminal-Bench 2.0: %77,3 — ajantik terminal kodlamasında tüm modellere öncülük ediyor
SWE-Bench Pro: %56,8 — dört programlama dilinde en yüksek puan
OSWorld: %64,7 — güçlü bilgisayar kullanımı (ancak Sonnet 4.6'nın %72,5'lik skorunun gerisinde)
GPT-5.2 Codex'ten %25 daha hızlı
Çalışırken etkileşimli — bağlamı kaybetmeden ajanı görev ortasında yönlendirin
İlk kendi kendini geliştiren (self-bootstrapping) model — GPT-5.3 Codex kendi eğitim sürecindeki hataları ayıklamaya yardımcı oldu
Ücretli ChatGPT planları için Codex uygulaması, CLI ve IDE eklentisinde mevcut
API fiyatlandırması henüz yayınlanmadı

OpenAI Ne Duyurdu?

GPT-5.3 Codex sadece daha iyi bir kodlama modeli değil. OpenAI'ın tam yazılım yaşam döngüsü ajanı olarak tasarlanan ilk modelidir; hata ayıklama, dağıtım, izleme, PRD yazma, metin düzenleme, test çalıştırma ve daha fazlasını yapabilir.

Başlık özelliği: otonom uzun süreli görevler. GPT-5.3 Codex'e karmaşık bir görev verin; o saatlerce üzerinde çalışacaktır — araştırma yapacak, araçları kullanacak, kod çalıştıracak ve ilerledikçe planını uyarlayacaktır. Bir meslektaşınızla çalışır gibi, bağlamı kaybetmeden onu görev ortasında yönlendirebilirsiniz.

OpenAI'ın en kışkırtıcı iddiası: GPT-5.3 Codex "kendisinin yaratılmasında etkili olan ilk modeldir." Codex ekibi, kendi eğitim boru hattındaki hataları ayıklamak, dağıtımı yönetmek ve değerlendirme sonuçlarını teşhis etmek için modelin erken sürümlerini kullandı.

Benchmarklar

GPT-5.3 Codex'in Önde Olduğu Alanlar

Benchmark	Neyi Test Ediyor?	GPT-5.3 Codex	En İyi Rakip
Terminal-Bench 2.0	Ajantik terminal kodlama	%77,3	Gemini 3.1 Pro: %68,5
SWE-Bench Pro	Çok dilli kodlama	%56,8	Gemini 3.1 Pro: %54,2
HumanEval	Kod üretimi	%93	—
GPQA	Bilimsel akıl yürütme	%81	Gemini 3.1 Pro: %94,3

Tam Karşılaştırma

Benchmark	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	%77,3	%65,4	%59,1	%68,5
SWE-Bench Pro	%56,8	—	—	%54,2
OSWorld	%64,7	%72,7	%72,5	Yok
SWE-bench Verified	~%80	%80,8	%79,6	%80,6
ARC-AGI-2	%52,9	%68,8	%58,3	%77,1

Rakamlar Ne Anlama Geliyor?

GPT-5.3 Codex, bir YZ ajanının bir kod tabanında gezinmesi, komutlar çalıştırması, çıktıları yorumlaması, hataları düzeltmesi ve yinelemesi gereken iş türü olan ajantik terminal kodlamasında domine ediyor. %77,3'lük Terminal-Bench skoru, en yakın rakibinden (%%68,5 ile Gemini 3.1 Pro) yaklaşık 9 puan, Opus 4.6'dan (%65,4) ise 12 puan ileride.

Ancak bilgisayar kullanımı (OSWorld) konusunda Claude'un önemli ölçüde gerisinde kalıyor — Sonnet 4.6'nın %72,5'ine karşılık %64,7. Ve akıl yürütme (ARC-AGI-2) konusunda Gemini 3.1 Pro (%77,1) ve Opus 4.6'nın (%68,8) oldukça gerisinde.

Temel Özellikler

1. Otonom Çok Saatlik Oturumlar

Önceki kodlama modelleri kısa aralıklarla çalışıyordu — siz komut veriyordunuz, o yanıtlıyordu, siz tekrar komut veriyordunuz. GPT-5.3 Codex, birçok adımda kendi iş akışını yöneterek karmaşık görevler üzerinde sürekli çalışır.

Örnek iş akışı: "Kimlik doğrulama sistemimizi JWT'den OAuth 2.0'a taşıyın, etkilenen tüm uç noktaları güncelleyin, testleri yazın ve taşımanın çalıştığını doğrulayın." GPT-5.3 Codex kod tabanını araştıracak, taşımayı planlayacak, dosya dosya uygulayacak, testleri çalıştıracak, hataları düzeltecek ve rapor verecektir — bu süreç potansiyel olarak saatler sürebilir.

2. Etkileşimli Yönlendirme

GPT-5.3 Codex çalışırken bağlamı kaybetmeden onu yeniden yönlendirebilirsiniz. Yanlış yola saptığını görürseniz, ona yön değiştirmesini söyleyin. Konuşma kesintisiz devam eder.

3. Tam Yazılım Yaşam Döngüsü

OpenAI, GPT-5.3 Codex'i sadece kod yazmanın ötesinde açıkça konumlandırıyor:

Hata Ayıklama — hata günlüklerini okur, kök nedenleri izler, düzeltmeleri uygular
Dağıtım — dağıtım boru hatlarını ve konfigürasyonlarını yönetir
İzleme — çalışan sistemlerdeki sorunları gözlemler
PRD'ler ve dokümanlar — ürün gereksinimlerini ve dokümantasyonu yazar
Kullanıcı araştırması — geri bildirimleri ve test sonuçlarını sentezler
Test Etme — test paketleri oluşturur ve çalıştırır
Metrikler — performans verilerini analiz eder

4. Kendi Kendini Geliştirme (Self-Bootstrapping)

GPT-5.3 Codex, geliştirme aşamasında kendi erken sürümlerini şu amaçlarla kullandı:

Eğitim boru hattı sorunlarını gidermek

Model dağıtımını yönetmek

Değerlendirme sonuçlarını teşhis etmek

Milyonlarca token boyunca otonom olarak oyun geliştirme üzerinde yineleme yapmak

Bu, bir YZ modelinin kendi yaratılışına katkıda bulunduğunun halka açık bir şekilde açıklandığı ilk seferdir.

GPT-5.3 Codex vs. Claude Code

Yetenek	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
Terminal kodlama	%77,3	Opus: %65,4, Sonnet: %59,1
Bilgisayar kullanımı	%64,7	Sonnet: %72,5, Opus: %72,7
SWE-bench	~%80	Opus: %80,8, Sonnet: %79,6
Çok saatlik otonomi	Evet	Sınırlı
Etkileşimli yönlendirme	Evet	Evet
IDE entegrasyonu	Codex IDE eklentisi	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
Ofis görevleri	Sınırlı	Sonnet: 1633 Elo
Prompt injection direnci	Standart	Opus seviyesi
API fiyatlandırması	Belirlenecek	$3/$15 (Sonnet), $15/$75 (Opus)

Şu durumlarda GPT-5.3 Codex'i seçin:

Uzun süreli otonom kodlama görevleri (çok saatlik oturumlar)
Karmaşık araç zincirlerine sahip terminal odaklı iş akışları
Halihazırda OpenAI/ChatGPT ekosistemindeyseniz
Tam yazılım yaşam döngüsü otomasyonu

Şu durumlarda Claude Code'u seçin:

Bilgisayar kullanımı / tarayıcı otomasyonu (%72,5'e karşı %64,7)
Kodlamanın yanı sıra ofis görevleri
Ajan güvenliği kritikse (daha iyi prompt injection direnci)
API maliyet öngörülebilirliği ($3/$15 bilinen fiyatlandırma)

Kullanılabilirlik

GPT-5.3 Codex, ücretli ChatGPT planları (Plus, Pro, Team, Enterprise) için şu platformlarda mevcuttur:

Codex uygulaması (web) — tam otonom ajan arayüzü
Codex CLI — terminal tabanlı kodlama ajanı
IDE eklentisi — editörünüze entegre edilmiş
API — haftalar içinde gelecek (fiyatlandırma belirlenecek)

Şu anda ücretsiz katman erişimi bulunmamaktadır.

Geliştiriciler İçin Ne Anlama Geliyor?

YZ Kodlama Ajanı Yarışı Gerçek

5 Şubat 2026'da hem OpenAI hem de Anthropic aynı gün büyük modeller yayınladı — GPT-5.3 Codex ve Claude Opus 4.6. Mesaj net: otonom kodlama ajanları birincil rekabet savaş alanıdır.

Farklı Güçlü Yönler, Farklı İş Akışları

GPT-5.3 Codex, uzun oturumlar boyunca otonom, terminal tabanlı kodlamada mükemmeldir. Claude bilgisayar kullanımı, ofis entegrasyonu ve güvenlikte mükemmeldir. Gemini 3.1 Pro ise akıl yürütme ve multimodal alanında öncüdür.

Çoğu geliştirici için seçim iş akışınıza bağlıdır:

Yoğun CLI/terminal çalışması → GPT-5.3 Codex

Tarayıcı otomasyonu + karışık görevler → Claude Code

Bilimsel/akıl yürütme odaklı işler → Gemini 3.1 Pro

Model Sadece Başlangıç

Her üç laboratuvar arasındaki trend: tek başına model yeterli değil. Etrafında dağıtım, izleme, analitik ve büyüme araçlarına ihtiyacınız var. YZ kodlama ajanı kodu yazar, ancak bir ürünü piyasaya sürmek tam bir yığın (full stack) gerektirir.

İnşa ettiğinizi yayınlayın. Y Build koddan sonraki her şeyi halleder: tek tıkla dağıtım, ürün videoları için Demo Cut, YZ SEO ve analitik. Herhangi bir YZ kodlama aracıyla çalışır. Ücretsiz başlayın.

Kaynaklar: