GPT-5.3 Codex: Agen Pemrograman Otonom OpenAI

TL;DR

OpenAI merilis GPT-5.3 Codex pada 5 Februari 2026 — hari yang sama ketika Anthropic meluncurkan Opus 4.6. Statistik utama:

Terminal-Bench 2.0: 77,3% — memimpin semua model dalam pemrograman terminal agantik
SWE-Bench Pro: 56,8% — skor tertinggi di empat bahasa pemrograman
OSWorld: 64,7% — penggunaan komputer yang kuat (namun di belakang Sonnet 4.6 dengan 72,5%)
25% lebih cepat dibandingkan GPT-5.2 Codex
Interaktif saat bekerja — arahkan agen di tengah tugas tanpa kehilangan konteks
Model self-bootstrapping pertama — GPT-5.3 Codex membantu memperbaiki bug pada pelatihannya sendiri
Tersedia di aplikasi Codex, CLI, dan ekstensi IDE untuk paket ChatGPT berbayar
Harga API belum dipublikasikan

Apa yang Diumumkan OpenAI

GPT-5.3 Codex bukan sekadar model pemrograman yang lebih baik. Ini adalah model pertama OpenAI yang dirancang sebagai agen siklus hidup perangkat lunak lengkap — melakukan debugging, deploying, pemantauan, menulis PRD, menyunting salinan, menjalankan pengujian, dan banyak lagi.

Fitur utamanya: tugas otonom berdurasi lama. Berikan GPT-5.3 Codex tugas yang kompleks, dan ia akan mengerjakannya selama berjam-jam — melakukan riset, menggunakan alat, mengeksekusi kode, dan menyesuaikan rencananya seiring berjalannya waktu. Anda dapat mengarahkannya di tengah tugas tanpa kehilangan konteks, seperti bekerja dengan rekan sejawat.

Klaim paling provokatif dari OpenAI: GPT-5.3 Codex adalah "model pertama yang berperan penting dalam menciptakan dirinya sendiri." Tim Codex menggunakan versi awal untuk melakukan debug pada pipeline pelatihannya sendiri, mengelola deployment, dan mendiagnosis hasil evaluasi.

Benchmark

Di Mana GPT-5.3 Codex Memimpin

Benchmark	Apa yang Diuji	GPT-5.3 Codex	Kompetitor Terbaik
Terminal-Bench 2.0	Pemrograman terminal agantik	77,3%	Gemini 3.1 Pro: 68,5%
SWE-Bench Pro	Pemrograman multi-bahasa	56,8%	Gemini 3.1 Pro: 54,2%
HumanEval	Generasi kode	93%	—
GPQA	Penalaran sains	81%	Gemini 3.1 Pro: 94,3%

Perbandingan Lengkap

Benchmark	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	77,3%	65,4%	59,1%	68,5%
SWE-Bench Pro	56,8%	—	—	54,2%
OSWorld	64,7%	72,7%	72,5%	N/A
SWE-bench Verified	~80%	80,8%	79,6%	80,6%
ARC-AGI-2	52,9%	68,8%	58,3%	77,1%

Makna di Balik Angka-Angka Tersebut

GPT-5.3 Codex mendominasi dalam pemrograman terminal agantik — jenis pekerjaan di mana agen AI perlu menavigasi basis kode, menjalankan perintah, menginterpretasikan output, memperbaiki kesalahan, dan melakukan iterasi. Skor 77,3% pada Terminal-Bench hampir 9 poin di atas kompetitor terdekat (Gemini 3.1 Pro pada 68,5%) dan 12 poin di atas Opus 4.6 (65,4%).

Namun pada penggunaan komputer (OSWorld), ia tertinggal cukup jauh dari Claude — 64,7% berbanding 72,5% milik Sonnet 4.6. Dan pada penalaran (ARC-AGI-2), ia jauh di belakang Gemini 3.1 Pro (77,1%) dan Opus 4.6 (68,8%).

Fitur Utama

1. Sesi Otonom Berjam-jam

Model pemrograman sebelumnya bekerja dalam letupan pendek — Anda memberikan prompt, ia merespons, Anda memberikan prompt lagi. GPT-5.3 Codex bekerja secara terus-menerus pada tugas-tugas kompleks, mengelola alur kerjanya sendiri melalui banyak langkah.

Contoh alur kerja: "Migrasikan sistem autentikasi kami dari JWT ke OAuth 2.0, perbarui semua endpoint yang terpengaruh, tulis pengujian, dan verifikasi bahwa migrasi berhasil." GPT-5.3 Codex akan meriset basis kode, merencanakan migrasi, mengeksekusinya file demi file, menjalankan pengujian, memperbaiki kegagalan, dan memberikan laporan — berpotensi selama berjam-jam.

2. Kemudi Interaktif

Anda dapat mengarahkan ulang GPT-5.3 Codex saat ia sedang bekerja tanpa kehilangan konteks. Jika Anda melihatnya mengambil jalur yang salah, beri tahu untuk mengubah arah. Percakapan tetap berlanjut secara kontinu.

3. Siklus Hidup Perangkat Lunak Lengkap

OpenAI secara eksplisit memposisikan GPT-5.3 Codex lebih dari sekadar menulis kode:

Debugging — membaca log kesalahan, melacak akar masalah, menerapkan perbaikan
Deploying — mengelola pipeline dan konfigurasi deployment
Monitoring — memantau masalah pada sistem yang sedang berjalan
PRD dan dokumen — menulis persyaratan produk dan dokumentasi
Riset pengguna — menyintesis umpan balik dan hasil pengujian
Testing — membuat dan menjalankan rangkaian pengujian (test suites)
Metrik — menganalisis data performa

4. Self-Bootstrapping

GPT-5.3 Codex menggunakan versi awal dirinya sendiri selama pengembangan untuk:

Melakukan debug pada masalah pipeline pelatihan

Mengelola deployment model

Mendiagnosis hasil evaluasi

Melakukan iterasi pada pengembangan gim secara otonom melalui jutaan token

Ini adalah pertama kalinya sebuah model AI dideskripsikan secara publik berkontribusi pada penciptaannya sendiri.

GPT-5.3 Codex vs. Claude Code

Kemampuan	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
Pemrograman terminal	77,3%	Opus: 65,4%, Sonnet: 59,1%
Penggunaan komputer	64,7%	Sonnet: 72,5%, Opus: 72,7%
SWE-bench	~80%	Opus: 80,8%, Sonnet: 79,6%
Otonomi multi-jam	Ya	Terbatas
Kemudi interaktif	Ya	Ya
Integrasi IDE	Ekstensi Codex IDE	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
Tugas kantor	Terbatas	Sonnet: 1633 Elo
Resistensi prompt injection	Standar	Setingkat Opus
Harga API	Akan ditentukan	$3/$15 (Sonnet), $15/$75 (Opus)

Pilih GPT-5.3 Codex jika:

Tugas pemrograman otonom berdurasi lama (sesi multi-jam)
Alur kerja yang berat di terminal dengan rantai alat yang kompleks
Sudah berada dalam ekosistem OpenAI/ChatGPT
Otomasi siklus hidup perangkat lunak lengkap

Pilih Claude Code jika:

Penggunaan komputer / otomasi peramban (72,5% vs 64,7%)
Tugas kantor bersamaan dengan pemrograman
Keamanan agen sangat kritis (resistensi prompt injection yang lebih baik)
Prediktabilitas biaya API (harga $3/$15 yang sudah diketahui)

Ketersediaan

GPT-5.3 Codex tersedia untuk paket ChatGPT berbayar (Plus, Pro, Team, Enterprise) melalui:

Aplikasi Codex (web) — antarmuka agen otonom lengkap
Codex CLI — agen pemrograman berbasis terminal
Ekstensi IDE — terintegrasi ke dalam editor Anda
API — hadir dalam beberapa minggu (harga akan ditentukan)

Saat ini tidak tersedia akses tingkat gratis.

Maknanya bagi Pengembang

Perlombaan Agen Pemrograman AI Nyata Adanya

5 Februari 2026 menyaksikan OpenAI dan Anthropic merilis model besar pada hari yang sama — GPT-5.3 Codex dan Claude Opus 4.6. Pesannya jelas: agen pemrograman otonom adalah medan tempur kompetitif yang utama.

Kekuatan Berbeda, Alur Kerja Berbeda

GPT-5.3 Codex unggul dalam pemrograman otonom berbasis terminal selama sesi yang panjang. Claude unggul dalam penggunaan komputer, integrasi kantor, dan keamanan. Gemini 3.1 Pro memimpin dalam penalaran dan multimodal.

Bagi sebagian besar pengembang, pilihan tergantung pada alur kerja Anda:

Pekerjaan berat di CLI/terminal → GPT-5.3 Codex

Otomasi peramban + tugas campuran → Claude Code

Pekerjaan berat di sains/penalaran → Gemini 3.1 Pro

Model Hanyalah Awal

Tren di ketiga lab tersebut: model saja tidak cukup. Anda memerlukan alat deployment, pemantauan, analitik, dan pertumbuhan di sekitarnya. Agen pemrograman AI menulis kodenya, tetapi meluncurkan produk memerlukan tumpukan teknologi (stack) lengkap.

Kirim apa yang Anda bangun. Y Build menangani segalanya setelah kode: deploy satu kali klik, Demo Cut untuk video produk, AI SEO, dan analitik. Bekerja dengan alat pemrograman AI apa pun. Mulai gratis.

Sumber: