GPT-5.3 Codex: Ejen Pengekodan Autonomi OpenAI
OpenAI melancarkan GPT-5.3 Codex pada 5 Februari 2026 — model AI pertama yang membantu membina dirinya sendiri. 77.3% Terminal-Bench, 56.8% SWE-Bench Pro, sesi pengekodan autonomi berjam-jam. Pecahan penuh ciri, penanda aras, dan perbandingannya dengan Claude Code.
TL;DR
OpenAI melancarkan GPT-5.3 Codex pada 5 Februari 2026 — pada hari yang sama Anthropic mengeluarkan Opus 4.6. Statistik utama:
- Terminal-Bench 2.0: 77.3% — mendahului semua model dalam pengekodan terminal berasaskan ejen
- SWE-Bench Pro: 56.8% — skor tertinggi merentasi empat bahasa pengaturcaraan
- OSWorld: 64.7% — penggunaan komputer yang kuat (tetapi di belakang 72.5% milik Sonnet 4.6)
- 25% lebih pantas daripada GPT-5.2 Codex
- Interaktif semasa bekerja — kemudi ejen di tengah tugasan tanpa kehilangan konteks
- Model butstrap kendiri pertama — GPT-5.3 Codex membantu menyahpepijat latihannya sendiri
- Tersedia dalam aplikasi Codex, CLI, dan sambungan IDE untuk pelan ChatGPT berbayar
- Harga API belum diterbitkan
Apa yang Diumumkan oleh OpenAI
GPT-5.3 Codex bukan sekadar model pengekodan yang lebih baik. Ia adalah model pertama OpenAI yang direka sebagai ejen kitaran hayat perisian penuh — menyahpepijat, melakukan penyebaran (deploying), memantau, menulis PRD, menyunting salinan, menjalankan ujian, dan banyak lagi.
Ciri utamanya: tugasan jangka panjang autonomi. Berikan GPT-5.3 Codex tugasan yang kompleks, dan ia akan mengerjakannya selama berjam-jam — melakukan penyelidikan, menggunakan alatan, melaksanakan kod, dan menyesuaikan rancangannya mengikut keperluan. Anda boleh mengemudinya di tengah tugasan tanpa kehilangan konteks, sama seperti bekerja dengan rakan sekerja.
Dakwaan OpenAI yang paling mencabar: GPT-5.3 Codex adalah "model pertama yang memainkan peranan penting dalam mencipta dirinya sendiri." Pasukan Codex menggunakan versi awal untuk menyahpepijat pipeline latihannya sendiri, mengurus penyebaran, dan mendiagnosis hasil penilaian.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Penanda Aras
Di Mana GPT-5.3 Codex Mendahului
| Penanda Aras | Apa yang Diuji | GPT-5.3 Codex | Pesaing Terbaik |
|---|---|---|---|
| Terminal-Bench 2.0 | Pengekodan terminal berasaskan ejen | 77.3% | Gemini 3.1 Pro: 68.5% |
| SWE-Bench Pro | Pengekodan pelbagai bahasa | 56.8% | Gemini 3.1 Pro: 54.2% |
| HumanEval | Penjanaan kod | 93% | — |
| GPQA | Penaakulan sains | 81% | Gemini 3.1 Pro: 94.3% |
Perbandingan Penuh
| Penanda Aras | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 77.3% | 65.4% | 59.1% | 68.5% |
| SWE-Bench Pro | 56.8% | — | — | 54.2% |
| OSWorld | 64.7% | 72.7% | 72.5% | N/A |
| SWE-bench Verified | ~80% | 80.8% | 79.6% | 80.6% |
| ARC-AGI-2 | 52.9% | 68.8% | 58.3% | 77.1% |
Maksud Di Sebalik Angka Ini
GPT-5.3 Codex mendominasi dalam pengekodan terminal berasaskan ejen — jenis kerja di mana ejen AI perlu menavigasi pangkalan kod, menjalankan arahan, mentafsir output, membaiki ralat, dan melakukan lelaran. Skor Terminal-Bench 77.3% adalah hampir 9 mata di hadapan pesaing terdekat (Gemini 3.1 Pro pada 68.5%) dan 12 mata di hadapan Opus 4.6 (65.4%).
Namun, dalam aspek penggunaan komputer (OSWorld), ia ketinggalan di belakang Claude secara ketara — 64.7% berbanding 72.5% milik Sonnet 4.6. Dan dalam hal penaakulan (ARC-AGI-2), ia jauh di belakang Gemini 3.1 Pro (77.1%) dan Opus 4.6 (68.8%).
Ciri-ciri Utama
1. Sesi Autonomi Berjam-jam
Model pengekodan terdahulu berfungsi secara berperingkat — anda beri arahan, ia balas, anda beri arahan lagi. GPT-5.3 Codex berfungsi secara berterusan untuk tugasan yang kompleks, menguruskan aliran kerjanya sendiri melalui pelbagai langkah.
Contoh aliran kerja: "Migrasikan sistem pengesahan kami daripada JWT kepada OAuth 2.0, kemas kini semua titik akhir (endpoints) yang terlibat, tulis ujian, dan sahkan migrasi berjaya." GPT-5.3 Codex akan menyelidik pangkalan kod, merancang migrasi, melaksanakannya fail demi fail, menjalankan ujian, membaiki kegagalan, dan melaporkan kembali — berpotensi selama berjam-jam.
2. Kemudi Interaktif
Anda boleh mengarahkan semula GPT-5.3 Codex semasa ia sedang bekerja tanpa kehilangan konteks. Jika anda melihat ia menuju ke arah yang salah, beritahunya untuk menukar arah. Perbualan kekal berterusan.
3. Kitaran Hayat Perisian Penuh
OpenAI secara eksplisit meletakkan GPT-5.3 Codex melampaui sekadar menulis kod:
- Debugging — membaca log ralat, mengesan punca masalah, melaksanakan pembaikan
- Deploying — mengurus pipeline penyebaran dan konfigurasi
- Monitoring — memantau isu dalam sistem yang sedang berjalan
- PRD dan dokumen — menulis keperluan produk dan dokumentasi
- Penyelidikan pengguna — mensintesis maklum balas dan hasil ujian
- Testing — menjana dan menjalankan set ujian
- Metrik — menganalisis data prestasi
4. Butstrap Kendiri (Self-Bootstrapping)
GPT-5.3 Codex menggunakan versi awal dirinya sendiri semasa pembangunan untuk:
- Menyahpepijat isu pipeline latihan
- Mengurus penyebaran model
- Mendiagnosis hasil penilaian
- Melakukan lelaran pada pembangunan permainan secara autonomi merentasi berjuta-juta token
Ini adalah kali pertama model AI diterangkan secara terbuka sebagai menyumbang kepada penciptaan dirinya sendiri.
GPT-5.3 Codex vs. Claude Code
| Keupayaan | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| Pengekodan terminal | 77.3% | Opus: 65.4%, Sonnet: 59.1% |
| Penggunaan komputer | 64.7% | Sonnet: 72.5%, Opus: 72.7% |
| SWE-bench | ~80% | Opus: 80.8%, Sonnet: 79.6% |
| Autonomi berjam-jam | Ya | Terhad |
| Kemudi interaktif | Ya | Ya |
| Integrasi IDE | Sambungan Codex IDE | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| Tugasan pejabat | Terhad | Sonnet: 1633 Elo |
| Rintangan prompt injection | Standard | Tahap-Opus |
| Harga API | Akan ditentukan | $3/$15 (Sonnet), $15/$75 (Opus) |
- Tugasan pengekodan autonomi jangka panjang (sesi berjam-jam)
- Aliran kerja berasaskan terminal yang berat dengan rantaian alatan kompleks
- Sudah berada dalam ekosistem OpenAI/ChatGPT
- Automasi kitaran hayat perisian penuh
- Penggunaan komputer / automasi pelayar (72.5% vs 64.7%)
- Tugasan pejabat bersama pengekodan
- Keselamatan ejen adalah kritikal (rintangan prompt injection yang lebih baik)
- Kebolehramalan kos API (harga $3/$15 yang sudah diketahui)
Ketersediaan
GPT-5.3 Codex tersedia untuk pelan ChatGPT berbayar (Plus, Pro, Team, Enterprise) merentasi:
- Aplikasi Codex (web) — antara muka ejen autonomi penuh
- Codex CLI — ejen pengekodan berasaskan terminal
- Sambungan IDE — disepadukan ke dalam editor anda
- API — akan datang dalam beberapa minggu (harga akan ditentukan)
Maksudnya untuk Pembangun
Perlumbaan Ejen Pengekodan AI Adalah Nyata
5 Februari 2026 menyaksikan kedua-dua OpenAI dan Anthropic melancarkan model utama pada hari yang sama — GPT-5.3 Codex dan Claude Opus 4.6. Mesejnya jelas: ejen pengekodan autonomi adalah medan tempur persaingan utama.
Kekuatan Berbeza, Aliran Kerja Berbeza
GPT-5.3 Codex unggul dalam pengekodan autonomi berasaskan terminal melalui sesi yang panjang. Claude unggul dalam penggunaan komputer, integrasi pejabat, dan keselamatan. Gemini 3.1 Pro mendahului dalam penaakulan dan multimodal.
Bagi kebanyakan pembangun, pilihan bergantung pada aliran kerja anda:
- Kerja CLI/terminal yang berat → GPT-5.3 Codex
- Automasi pelayar + tugasan bercampur → Claude Code
- Kerja berat sains/penaakulan → Gemini 3.1 Pro
Model Hanyalah Permulaan
Trend merentasi ketiga-tiga makmal: model sahaja tidak mencukupi. Anda memerlukan penyebaran, pemantauan, analitik, dan alatan pertumbuhan di sekelilingnya. Ejen pengekodan AI menulis kod, tetapi untuk melancarkan produk, anda memerlukan keseluruhan tindanan (full stack).
Hantar apa yang anda bina. Y Build mengendalikan segala-galanya selepas kod: penyebaran satu klik, Demo Cut untuk video produk, AI SEO, dan analitik. Berfungsi dengan mana-mana alatan pengekodan AI. Mula secara percuma.
Sumber:
- OpenAI: Introducing GPT-5.3-Codex
- OpenAI: GPT-5.3-Codex System Card
- Fortune: OpenAI GPT-5.3 Codex raises cybersecurity risks
- MarkTechPost: GPT-5.3-Codex agentic coding model
- DataCamp: GPT-5.3 Codex from coding to general work agent
- OfficeChai: Gemini 3.1 Pro Benchmarks (GPT-5.3 comparison)
- LLM Stats: GPT-5.3 Codex pricing and benchmarks
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.