GPT-5.3 Codex: Agen Pemrograman Otonom OpenAI
OpenAI merilis GPT-5.3 Codex pada 5 Februari 2026 — model AI pertama yang membantu membangun dirinya sendiri. 77,3% Terminal-Bench, 56,8% SWE-Bench Pro, sesi pemrograman otonom selama berjam-jam. Analisis lengkap fitur, benchmark, dan perbandingannya dengan Claude Code.
TL;DR
OpenAI merilis GPT-5.3 Codex pada 5 Februari 2026 — hari yang sama ketika Anthropic meluncurkan Opus 4.6. Statistik utama:
- Terminal-Bench 2.0: 77,3% — memimpin semua model dalam pemrograman terminal agantik
- SWE-Bench Pro: 56,8% — skor tertinggi di empat bahasa pemrograman
- OSWorld: 64,7% — penggunaan komputer yang kuat (namun di belakang Sonnet 4.6 dengan 72,5%)
- 25% lebih cepat dibandingkan GPT-5.2 Codex
- Interaktif saat bekerja — arahkan agen di tengah tugas tanpa kehilangan konteks
- Model self-bootstrapping pertama — GPT-5.3 Codex membantu memperbaiki bug pada pelatihannya sendiri
- Tersedia di aplikasi Codex, CLI, dan ekstensi IDE untuk paket ChatGPT berbayar
- Harga API belum dipublikasikan
Apa yang Diumumkan OpenAI
GPT-5.3 Codex bukan sekadar model pemrograman yang lebih baik. Ini adalah model pertama OpenAI yang dirancang sebagai agen siklus hidup perangkat lunak lengkap — melakukan debugging, deploying, pemantauan, menulis PRD, menyunting salinan, menjalankan pengujian, dan banyak lagi.
Fitur utamanya: tugas otonom berdurasi lama. Berikan GPT-5.3 Codex tugas yang kompleks, dan ia akan mengerjakannya selama berjam-jam — melakukan riset, menggunakan alat, mengeksekusi kode, dan menyesuaikan rencananya seiring berjalannya waktu. Anda dapat mengarahkannya di tengah tugas tanpa kehilangan konteks, seperti bekerja dengan rekan sejawat.
Klaim paling provokatif dari OpenAI: GPT-5.3 Codex adalah "model pertama yang berperan penting dalam menciptakan dirinya sendiri." Tim Codex menggunakan versi awal untuk melakukan debug pada pipeline pelatihannya sendiri, mengelola deployment, dan mendiagnosis hasil evaluasi.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Benchmark
Di Mana GPT-5.3 Codex Memimpin
| Benchmark | Apa yang Diuji | GPT-5.3 Codex | Kompetitor Terbaik |
|---|---|---|---|
| Terminal-Bench 2.0 | Pemrograman terminal agantik | 77,3% | Gemini 3.1 Pro: 68,5% |
| SWE-Bench Pro | Pemrograman multi-bahasa | 56,8% | Gemini 3.1 Pro: 54,2% |
| HumanEval | Generasi kode | 93% | — |
| GPQA | Penalaran sains | 81% | Gemini 3.1 Pro: 94,3% |
Perbandingan Lengkap
| Benchmark | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 77,3% | 65,4% | 59,1% | 68,5% |
| SWE-Bench Pro | 56,8% | — | — | 54,2% |
| OSWorld | 64,7% | 72,7% | 72,5% | N/A |
| SWE-bench Verified | ~80% | 80,8% | 79,6% | 80,6% |
| ARC-AGI-2 | 52,9% | 68,8% | 58,3% | 77,1% |
Makna di Balik Angka-Angka Tersebut
GPT-5.3 Codex mendominasi dalam pemrograman terminal agantik — jenis pekerjaan di mana agen AI perlu menavigasi basis kode, menjalankan perintah, menginterpretasikan output, memperbaiki kesalahan, dan melakukan iterasi. Skor 77,3% pada Terminal-Bench hampir 9 poin di atas kompetitor terdekat (Gemini 3.1 Pro pada 68,5%) dan 12 poin di atas Opus 4.6 (65,4%).
Namun pada penggunaan komputer (OSWorld), ia tertinggal cukup jauh dari Claude — 64,7% berbanding 72,5% milik Sonnet 4.6. Dan pada penalaran (ARC-AGI-2), ia jauh di belakang Gemini 3.1 Pro (77,1%) dan Opus 4.6 (68,8%).
Fitur Utama
1. Sesi Otonom Berjam-jam
Model pemrograman sebelumnya bekerja dalam letupan pendek — Anda memberikan prompt, ia merespons, Anda memberikan prompt lagi. GPT-5.3 Codex bekerja secara terus-menerus pada tugas-tugas kompleks, mengelola alur kerjanya sendiri melalui banyak langkah.
Contoh alur kerja: "Migrasikan sistem autentikasi kami dari JWT ke OAuth 2.0, perbarui semua endpoint yang terpengaruh, tulis pengujian, dan verifikasi bahwa migrasi berhasil." GPT-5.3 Codex akan meriset basis kode, merencanakan migrasi, mengeksekusinya file demi file, menjalankan pengujian, memperbaiki kegagalan, dan memberikan laporan — berpotensi selama berjam-jam.
2. Kemudi Interaktif
Anda dapat mengarahkan ulang GPT-5.3 Codex saat ia sedang bekerja tanpa kehilangan konteks. Jika Anda melihatnya mengambil jalur yang salah, beri tahu untuk mengubah arah. Percakapan tetap berlanjut secara kontinu.
3. Siklus Hidup Perangkat Lunak Lengkap
OpenAI secara eksplisit memposisikan GPT-5.3 Codex lebih dari sekadar menulis kode:
- Debugging — membaca log kesalahan, melacak akar masalah, menerapkan perbaikan
- Deploying — mengelola pipeline dan konfigurasi deployment
- Monitoring — memantau masalah pada sistem yang sedang berjalan
- PRD dan dokumen — menulis persyaratan produk dan dokumentasi
- Riset pengguna — menyintesis umpan balik dan hasil pengujian
- Testing — membuat dan menjalankan rangkaian pengujian (test suites)
- Metrik — menganalisis data performa
4. Self-Bootstrapping
GPT-5.3 Codex menggunakan versi awal dirinya sendiri selama pengembangan untuk:
- Melakukan debug pada masalah pipeline pelatihan
- Mengelola deployment model
- Mendiagnosis hasil evaluasi
- Melakukan iterasi pada pengembangan gim secara otonom melalui jutaan token
Ini adalah pertama kalinya sebuah model AI dideskripsikan secara publik berkontribusi pada penciptaannya sendiri.
GPT-5.3 Codex vs. Claude Code
| Kemampuan | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| Pemrograman terminal | 77,3% | Opus: 65,4%, Sonnet: 59,1% |
| Penggunaan komputer | 64,7% | Sonnet: 72,5%, Opus: 72,7% |
| SWE-bench | ~80% | Opus: 80,8%, Sonnet: 79,6% |
| Otonomi multi-jam | Ya | Terbatas |
| Kemudi interaktif | Ya | Ya |
| Integrasi IDE | Ekstensi Codex IDE | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| Tugas kantor | Terbatas | Sonnet: 1633 Elo |
| Resistensi prompt injection | Standar | Setingkat Opus |
| Harga API | Akan ditentukan | $3/$15 (Sonnet), $15/$75 (Opus) |
- Tugas pemrograman otonom berdurasi lama (sesi multi-jam)
- Alur kerja yang berat di terminal dengan rantai alat yang kompleks
- Sudah berada dalam ekosistem OpenAI/ChatGPT
- Otomasi siklus hidup perangkat lunak lengkap
- Penggunaan komputer / otomasi peramban (72,5% vs 64,7%)
- Tugas kantor bersamaan dengan pemrograman
- Keamanan agen sangat kritis (resistensi prompt injection yang lebih baik)
- Prediktabilitas biaya API (harga $3/$15 yang sudah diketahui)
Ketersediaan
GPT-5.3 Codex tersedia untuk paket ChatGPT berbayar (Plus, Pro, Team, Enterprise) melalui:
- Aplikasi Codex (web) — antarmuka agen otonom lengkap
- Codex CLI — agen pemrograman berbasis terminal
- Ekstensi IDE — terintegrasi ke dalam editor Anda
- API — hadir dalam beberapa minggu (harga akan ditentukan)
Maknanya bagi Pengembang
Perlombaan Agen Pemrograman AI Nyata Adanya
5 Februari 2026 menyaksikan OpenAI dan Anthropic merilis model besar pada hari yang sama — GPT-5.3 Codex dan Claude Opus 4.6. Pesannya jelas: agen pemrograman otonom adalah medan tempur kompetitif yang utama.
Kekuatan Berbeda, Alur Kerja Berbeda
GPT-5.3 Codex unggul dalam pemrograman otonom berbasis terminal selama sesi yang panjang. Claude unggul dalam penggunaan komputer, integrasi kantor, dan keamanan. Gemini 3.1 Pro memimpin dalam penalaran dan multimodal.
Bagi sebagian besar pengembang, pilihan tergantung pada alur kerja Anda:
- Pekerjaan berat di CLI/terminal → GPT-5.3 Codex
- Otomasi peramban + tugas campuran → Claude Code
- Pekerjaan berat di sains/penalaran → Gemini 3.1 Pro
Model Hanyalah Awal
Tren di ketiga lab tersebut: model saja tidak cukup. Anda memerlukan alat deployment, pemantauan, analitik, dan pertumbuhan di sekitarnya. Agen pemrograman AI menulis kodenya, tetapi meluncurkan produk memerlukan tumpukan teknologi (stack) lengkap.
Kirim apa yang Anda bangun. Y Build menangani segalanya setelah kode: deploy satu kali klik, Demo Cut untuk video produk, AI SEO, dan analitik. Bekerja dengan alat pemrograman AI apa pun. Mulai gratis.
Sumber:
- OpenAI: Introducing GPT-5.3-Codex
- OpenAI: GPT-5.3-Codex System Card
- Fortune: OpenAI GPT-5.3 Codex raises cybersecurity risks
- MarkTechPost: GPT-5.3-Codex agentic coding model
- DataCamp: GPT-5.3 Codex from coding to general work agent
- OfficeChai: Gemini 3.1 Pro Benchmarks (GPT-5.3 comparison)
- LLM Stats: GPT-5.3 Codex pricing and benchmarks
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.