GPT-5.3 Codex: OpenAI'ın Otonom Kodlama Ajanı
OpenAI, 5 Şubat 2026'da kendi kendini inşa etmeye yardımcı olan ilk YZ modeli GPT-5.3 Codex'i yayınladı. %77,3 Terminal-Bench, %56,8 SWE-Bench Pro, otonom çok saatlik kodlama oturumları. Özelliklerin, benchmark sonuçlarının ve Claude Code ile karşılaştırmasının tam dökümü.
TL;DR
OpenAI, 5 Şubat 2026'da — Anthropic'in Opus 4.6'yı çıkardığı gün — GPT-5.3 Codex'i yayınladı. Temel istatistikler:
- Terminal-Bench 2.0: %77,3 — ajantik terminal kodlamasında tüm modellere öncülük ediyor
- SWE-Bench Pro: %56,8 — dört programlama dilinde en yüksek puan
- OSWorld: %64,7 — güçlü bilgisayar kullanımı (ancak Sonnet 4.6'nın %72,5'lik skorunun gerisinde)
- GPT-5.2 Codex'ten %25 daha hızlı
- Çalışırken etkileşimli — bağlamı kaybetmeden ajanı görev ortasında yönlendirin
- İlk kendi kendini geliştiren (self-bootstrapping) model — GPT-5.3 Codex kendi eğitim sürecindeki hataları ayıklamaya yardımcı oldu
- Ücretli ChatGPT planları için Codex uygulaması, CLI ve IDE eklentisinde mevcut
- API fiyatlandırması henüz yayınlanmadı
OpenAI Ne Duyurdu?
GPT-5.3 Codex sadece daha iyi bir kodlama modeli değil. OpenAI'ın tam yazılım yaşam döngüsü ajanı olarak tasarlanan ilk modelidir; hata ayıklama, dağıtım, izleme, PRD yazma, metin düzenleme, test çalıştırma ve daha fazlasını yapabilir.
Başlık özelliği: otonom uzun süreli görevler. GPT-5.3 Codex'e karmaşık bir görev verin; o saatlerce üzerinde çalışacaktır — araştırma yapacak, araçları kullanacak, kod çalıştıracak ve ilerledikçe planını uyarlayacaktır. Bir meslektaşınızla çalışır gibi, bağlamı kaybetmeden onu görev ortasında yönlendirebilirsiniz.
OpenAI'ın en kışkırtıcı iddiası: GPT-5.3 Codex "kendisinin yaratılmasında etkili olan ilk modeldir." Codex ekibi, kendi eğitim boru hattındaki hataları ayıklamak, dağıtımı yönetmek ve değerlendirme sonuçlarını teşhis etmek için modelin erken sürümlerini kullandı.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Benchmarklar
GPT-5.3 Codex'in Önde Olduğu Alanlar
| Benchmark | Neyi Test Ediyor? | GPT-5.3 Codex | En İyi Rakip |
|---|---|---|---|
| Terminal-Bench 2.0 | Ajantik terminal kodlama | %77,3 | Gemini 3.1 Pro: %68,5 |
| SWE-Bench Pro | Çok dilli kodlama | %56,8 | Gemini 3.1 Pro: %54,2 |
| HumanEval | Kod üretimi | %93 | — |
| GPQA | Bilimsel akıl yürütme | %81 | Gemini 3.1 Pro: %94,3 |
Tam Karşılaştırma
| Benchmark | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | %77,3 | %65,4 | %59,1 | %68,5 |
| SWE-Bench Pro | %56,8 | — | — | %54,2 |
| OSWorld | %64,7 | %72,7 | %72,5 | Yok |
| SWE-bench Verified | ~%80 | %80,8 | %79,6 | %80,6 |
| ARC-AGI-2 | %52,9 | %68,8 | %58,3 | %77,1 |
Rakamlar Ne Anlama Geliyor?
GPT-5.3 Codex, bir YZ ajanının bir kod tabanında gezinmesi, komutlar çalıştırması, çıktıları yorumlaması, hataları düzeltmesi ve yinelemesi gereken iş türü olan ajantik terminal kodlamasında domine ediyor. %77,3'lük Terminal-Bench skoru, en yakın rakibinden (%%68,5 ile Gemini 3.1 Pro) yaklaşık 9 puan, Opus 4.6'dan (%65,4) ise 12 puan ileride.
Ancak bilgisayar kullanımı (OSWorld) konusunda Claude'un önemli ölçüde gerisinde kalıyor — Sonnet 4.6'nın %72,5'ine karşılık %64,7. Ve akıl yürütme (ARC-AGI-2) konusunda Gemini 3.1 Pro (%77,1) ve Opus 4.6'nın (%68,8) oldukça gerisinde.
Temel Özellikler
1. Otonom Çok Saatlik Oturumlar
Önceki kodlama modelleri kısa aralıklarla çalışıyordu — siz komut veriyordunuz, o yanıtlıyordu, siz tekrar komut veriyordunuz. GPT-5.3 Codex, birçok adımda kendi iş akışını yöneterek karmaşık görevler üzerinde sürekli çalışır.
Örnek iş akışı: "Kimlik doğrulama sistemimizi JWT'den OAuth 2.0'a taşıyın, etkilenen tüm uç noktaları güncelleyin, testleri yazın ve taşımanın çalıştığını doğrulayın." GPT-5.3 Codex kod tabanını araştıracak, taşımayı planlayacak, dosya dosya uygulayacak, testleri çalıştıracak, hataları düzeltecek ve rapor verecektir — bu süreç potansiyel olarak saatler sürebilir.
2. Etkileşimli Yönlendirme
GPT-5.3 Codex çalışırken bağlamı kaybetmeden onu yeniden yönlendirebilirsiniz. Yanlış yola saptığını görürseniz, ona yön değiştirmesini söyleyin. Konuşma kesintisiz devam eder.
3. Tam Yazılım Yaşam Döngüsü
OpenAI, GPT-5.3 Codex'i sadece kod yazmanın ötesinde açıkça konumlandırıyor:
- Hata Ayıklama — hata günlüklerini okur, kök nedenleri izler, düzeltmeleri uygular
- Dağıtım — dağıtım boru hatlarını ve konfigürasyonlarını yönetir
- İzleme — çalışan sistemlerdeki sorunları gözlemler
- PRD'ler ve dokümanlar — ürün gereksinimlerini ve dokümantasyonu yazar
- Kullanıcı araştırması — geri bildirimleri ve test sonuçlarını sentezler
- Test Etme — test paketleri oluşturur ve çalıştırır
- Metrikler — performans verilerini analiz eder
4. Kendi Kendini Geliştirme (Self-Bootstrapping)
GPT-5.3 Codex, geliştirme aşamasında kendi erken sürümlerini şu amaçlarla kullandı:
- Eğitim boru hattı sorunlarını gidermek
- Model dağıtımını yönetmek
- Değerlendirme sonuçlarını teşhis etmek
- Milyonlarca token boyunca otonom olarak oyun geliştirme üzerinde yineleme yapmak
Bu, bir YZ modelinin kendi yaratılışına katkıda bulunduğunun halka açık bir şekilde açıklandığı ilk seferdir.
GPT-5.3 Codex vs. Claude Code
| Yetenek | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| Terminal kodlama | %77,3 | Opus: %65,4, Sonnet: %59,1 |
| Bilgisayar kullanımı | %64,7 | Sonnet: %72,5, Opus: %72,7 |
| SWE-bench | ~%80 | Opus: %80,8, Sonnet: %79,6 |
| Çok saatlik otonomi | Evet | Sınırlı |
| Etkileşimli yönlendirme | Evet | Evet |
| IDE entegrasyonu | Codex IDE eklentisi | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| Ofis görevleri | Sınırlı | Sonnet: 1633 Elo |
| Prompt injection direnci | Standart | Opus seviyesi |
| API fiyatlandırması | Belirlenecek | $3/$15 (Sonnet), $15/$75 (Opus) |
- Uzun süreli otonom kodlama görevleri (çok saatlik oturumlar)
- Karmaşık araç zincirlerine sahip terminal odaklı iş akışları
- Halihazırda OpenAI/ChatGPT ekosistemindeyseniz
- Tam yazılım yaşam döngüsü otomasyonu
- Bilgisayar kullanımı / tarayıcı otomasyonu (%72,5'e karşı %64,7)
- Kodlamanın yanı sıra ofis görevleri
- Ajan güvenliği kritikse (daha iyi prompt injection direnci)
- API maliyet öngörülebilirliği ($3/$15 bilinen fiyatlandırma)
Kullanılabilirlik
GPT-5.3 Codex, ücretli ChatGPT planları (Plus, Pro, Team, Enterprise) için şu platformlarda mevcuttur:
- Codex uygulaması (web) — tam otonom ajan arayüzü
- Codex CLI — terminal tabanlı kodlama ajanı
- IDE eklentisi — editörünüze entegre edilmiş
- API — haftalar içinde gelecek (fiyatlandırma belirlenecek)
Geliştiriciler İçin Ne Anlama Geliyor?
YZ Kodlama Ajanı Yarışı Gerçek
5 Şubat 2026'da hem OpenAI hem de Anthropic aynı gün büyük modeller yayınladı — GPT-5.3 Codex ve Claude Opus 4.6. Mesaj net: otonom kodlama ajanları birincil rekabet savaş alanıdır.
Farklı Güçlü Yönler, Farklı İş Akışları
GPT-5.3 Codex, uzun oturumlar boyunca otonom, terminal tabanlı kodlamada mükemmeldir. Claude bilgisayar kullanımı, ofis entegrasyonu ve güvenlikte mükemmeldir. Gemini 3.1 Pro ise akıl yürütme ve multimodal alanında öncüdür.
Çoğu geliştirici için seçim iş akışınıza bağlıdır:
- Yoğun CLI/terminal çalışması → GPT-5.3 Codex
- Tarayıcı otomasyonu + karışık görevler → Claude Code
- Bilimsel/akıl yürütme odaklı işler → Gemini 3.1 Pro
Model Sadece Başlangıç
Her üç laboratuvar arasındaki trend: tek başına model yeterli değil. Etrafında dağıtım, izleme, analitik ve büyüme araçlarına ihtiyacınız var. YZ kodlama ajanı kodu yazar, ancak bir ürünü piyasaya sürmek tam bir yığın (full stack) gerektirir.
İnşa ettiğinizi yayınlayın. Y Build koddan sonraki her şeyi halleder: tek tıkla dağıtım, ürün videoları için Demo Cut, YZ SEO ve analitik. Herhangi bir YZ kodlama aracıyla çalışır. Ücretsiz başlayın.
Kaynaklar:
- OpenAI: Introducing GPT-5.3-Codex
- OpenAI: GPT-5.3-Codex System Card
- Fortune: OpenAI GPT-5.3 Codex raises cybersecurity risks
- MarkTechPost: GPT-5.3-Codex agentic coding model
- DataCamp: GPT-5.3 Codex from coding to general work agent
- OfficeChai: Gemini 3.1 Pro Benchmarks (GPT-5.3 comparison)
- LLM Stats: GPT-5.3 Codex pricing and benchmarks
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.