GPT-5.3 Codex: Ejen Pengekodan Autonomi OpenAI

TL;DR

OpenAI melancarkan GPT-5.3 Codex pada 5 Februari 2026 — pada hari yang sama Anthropic mengeluarkan Opus 4.6. Statistik utama:

Terminal-Bench 2.0: 77.3% — mendahului semua model dalam pengekodan terminal berasaskan ejen
SWE-Bench Pro: 56.8% — skor tertinggi merentasi empat bahasa pengaturcaraan
OSWorld: 64.7% — penggunaan komputer yang kuat (tetapi di belakang 72.5% milik Sonnet 4.6)
25% lebih pantas daripada GPT-5.2 Codex
Interaktif semasa bekerja — kemudi ejen di tengah tugasan tanpa kehilangan konteks
Model butstrap kendiri pertama — GPT-5.3 Codex membantu menyahpepijat latihannya sendiri
Tersedia dalam aplikasi Codex, CLI, dan sambungan IDE untuk pelan ChatGPT berbayar
Harga API belum diterbitkan

Apa yang Diumumkan oleh OpenAI

GPT-5.3 Codex bukan sekadar model pengekodan yang lebih baik. Ia adalah model pertama OpenAI yang direka sebagai ejen kitaran hayat perisian penuh — menyahpepijat, melakukan penyebaran (deploying), memantau, menulis PRD, menyunting salinan, menjalankan ujian, dan banyak lagi.

Ciri utamanya: tugasan jangka panjang autonomi. Berikan GPT-5.3 Codex tugasan yang kompleks, dan ia akan mengerjakannya selama berjam-jam — melakukan penyelidikan, menggunakan alatan, melaksanakan kod, dan menyesuaikan rancangannya mengikut keperluan. Anda boleh mengemudinya di tengah tugasan tanpa kehilangan konteks, sama seperti bekerja dengan rakan sekerja.

Dakwaan OpenAI yang paling mencabar: GPT-5.3 Codex adalah "model pertama yang memainkan peranan penting dalam mencipta dirinya sendiri." Pasukan Codex menggunakan versi awal untuk menyahpepijat pipeline latihannya sendiri, mengurus penyebaran, dan mendiagnosis hasil penilaian.

Penanda Aras

Di Mana GPT-5.3 Codex Mendahului

Penanda Aras	Apa yang Diuji	GPT-5.3 Codex	Pesaing Terbaik
Terminal-Bench 2.0	Pengekodan terminal berasaskan ejen	77.3%	Gemini 3.1 Pro: 68.5%
SWE-Bench Pro	Pengekodan pelbagai bahasa	56.8%	Gemini 3.1 Pro: 54.2%
HumanEval	Penjanaan kod	93%	—
GPQA	Penaakulan sains	81%	Gemini 3.1 Pro: 94.3%

Perbandingan Penuh

Penanda Aras	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	77.3%	65.4%	59.1%	68.5%
SWE-Bench Pro	56.8%	—	—	54.2%
OSWorld	64.7%	72.7%	72.5%	N/A
SWE-bench Verified	~80%	80.8%	79.6%	80.6%
ARC-AGI-2	52.9%	68.8%	58.3%	77.1%

Maksud Di Sebalik Angka Ini

GPT-5.3 Codex mendominasi dalam pengekodan terminal berasaskan ejen — jenis kerja di mana ejen AI perlu menavigasi pangkalan kod, menjalankan arahan, mentafsir output, membaiki ralat, dan melakukan lelaran. Skor Terminal-Bench 77.3% adalah hampir 9 mata di hadapan pesaing terdekat (Gemini 3.1 Pro pada 68.5%) dan 12 mata di hadapan Opus 4.6 (65.4%).

Namun, dalam aspek penggunaan komputer (OSWorld), ia ketinggalan di belakang Claude secara ketara — 64.7% berbanding 72.5% milik Sonnet 4.6. Dan dalam hal penaakulan (ARC-AGI-2), ia jauh di belakang Gemini 3.1 Pro (77.1%) dan Opus 4.6 (68.8%).

Ciri-ciri Utama

1. Sesi Autonomi Berjam-jam

Model pengekodan terdahulu berfungsi secara berperingkat — anda beri arahan, ia balas, anda beri arahan lagi. GPT-5.3 Codex berfungsi secara berterusan untuk tugasan yang kompleks, menguruskan aliran kerjanya sendiri melalui pelbagai langkah.

Contoh aliran kerja: "Migrasikan sistem pengesahan kami daripada JWT kepada OAuth 2.0, kemas kini semua titik akhir (endpoints) yang terlibat, tulis ujian, dan sahkan migrasi berjaya." GPT-5.3 Codex akan menyelidik pangkalan kod, merancang migrasi, melaksanakannya fail demi fail, menjalankan ujian, membaiki kegagalan, dan melaporkan kembali — berpotensi selama berjam-jam.

2. Kemudi Interaktif

Anda boleh mengarahkan semula GPT-5.3 Codex semasa ia sedang bekerja tanpa kehilangan konteks. Jika anda melihat ia menuju ke arah yang salah, beritahunya untuk menukar arah. Perbualan kekal berterusan.

3. Kitaran Hayat Perisian Penuh

OpenAI secara eksplisit meletakkan GPT-5.3 Codex melampaui sekadar menulis kod:

Debugging — membaca log ralat, mengesan punca masalah, melaksanakan pembaikan
Deploying — mengurus pipeline penyebaran dan konfigurasi
Monitoring — memantau isu dalam sistem yang sedang berjalan
PRD dan dokumen — menulis keperluan produk dan dokumentasi
Penyelidikan pengguna — mensintesis maklum balas dan hasil ujian
Testing — menjana dan menjalankan set ujian
Metrik — menganalisis data prestasi

4. Butstrap Kendiri (Self-Bootstrapping)

GPT-5.3 Codex menggunakan versi awal dirinya sendiri semasa pembangunan untuk:

Menyahpepijat isu pipeline latihan

Mengurus penyebaran model

Mendiagnosis hasil penilaian

Melakukan lelaran pada pembangunan permainan secara autonomi merentasi berjuta-juta token

Ini adalah kali pertama model AI diterangkan secara terbuka sebagai menyumbang kepada penciptaan dirinya sendiri.

GPT-5.3 Codex vs. Claude Code

Keupayaan	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
Pengekodan terminal	77.3%	Opus: 65.4%, Sonnet: 59.1%
Penggunaan komputer	64.7%	Sonnet: 72.5%, Opus: 72.7%
SWE-bench	~80%	Opus: 80.8%, Sonnet: 79.6%
Autonomi berjam-jam	Ya	Terhad
Kemudi interaktif	Ya	Ya
Integrasi IDE	Sambungan Codex IDE	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
Tugasan pejabat	Terhad	Sonnet: 1633 Elo
Rintangan prompt injection	Standard	Tahap-Opus
Harga API	Akan ditentukan	$3/$15 (Sonnet), $15/$75 (Opus)

Pilih GPT-5.3 Codex apabila:

Tugasan pengekodan autonomi jangka panjang (sesi berjam-jam)
Aliran kerja berasaskan terminal yang berat dengan rantaian alatan kompleks
Sudah berada dalam ekosistem OpenAI/ChatGPT
Automasi kitaran hayat perisian penuh

Pilih Claude Code apabila:

Penggunaan komputer / automasi pelayar (72.5% vs 64.7%)
Tugasan pejabat bersama pengekodan
Keselamatan ejen adalah kritikal (rintangan prompt injection yang lebih baik)
Kebolehramalan kos API (harga $3/$15 yang sudah diketahui)

Ketersediaan

GPT-5.3 Codex tersedia untuk pelan ChatGPT berbayar (Plus, Pro, Team, Enterprise) merentasi:

Aplikasi Codex (web) — antara muka ejen autonomi penuh
Codex CLI — ejen pengekodan berasaskan terminal
Sambungan IDE — disepadukan ke dalam editor anda
API — akan datang dalam beberapa minggu (harga akan ditentukan)

Tiada akses peringkat percuma buat masa ini.

Maksudnya untuk Pembangun

Perlumbaan Ejen Pengekodan AI Adalah Nyata

5 Februari 2026 menyaksikan kedua-dua OpenAI dan Anthropic melancarkan model utama pada hari yang sama — GPT-5.3 Codex dan Claude Opus 4.6. Mesejnya jelas: ejen pengekodan autonomi adalah medan tempur persaingan utama.

Kekuatan Berbeza, Aliran Kerja Berbeza

GPT-5.3 Codex unggul dalam pengekodan autonomi berasaskan terminal melalui sesi yang panjang. Claude unggul dalam penggunaan komputer, integrasi pejabat, dan keselamatan. Gemini 3.1 Pro mendahului dalam penaakulan dan multimodal.

Bagi kebanyakan pembangun, pilihan bergantung pada aliran kerja anda:

Kerja CLI/terminal yang berat → GPT-5.3 Codex

Automasi pelayar + tugasan bercampur → Claude Code

Kerja berat sains/penaakulan → Gemini 3.1 Pro

Model Hanyalah Permulaan

Trend merentasi ketiga-tiga makmal: model sahaja tidak mencukupi. Anda memerlukan penyebaran, pemantauan, analitik, dan alatan pertumbuhan di sekelilingnya. Ejen pengekodan AI menulis kod, tetapi untuk melancarkan produk, anda memerlukan keseluruhan tindanan (full stack).

Hantar apa yang anda bina. Y Build mengendalikan segala-galanya selepas kod: penyebaran satu klik, Demo Cut untuk video produk, AI SEO, dan analitik. Berfungsi dengan mana-mana alatan pengekodan AI. Mula secara percuma.

Sumber: