Panduan GPT-5.4: Model Agen Autonomi OpenAI (2026)
GPT-5.4 mencapai skor 75% pada OSWorld, menewaskan manusia dalam penggunaan komputer. Konteks 1M, $2.50/MTok, 5 varian model. Penanda aras penuh, harga, dan panduan perbandingan.
TL;DR
OpenAI melancarkan GPT-5.4 pada 5 Mac 2026 — model kegunaan am pertama yang menewaskan manusia dalam penggunaan komputer secara autonomi. Statistik utama:
| Ciri | Perincian |
|---|---|
| OSWorld-Verified | 75.0% — mengatasi garis dasar manusia (72.4%) |
| SWE-bench Pro | 57.7% — pengekodan yang kuat, tetapi mengekori Claude Opus 4.6 (80.8%) |
| Tetingkap Konteks | Sehingga 1.05M token (272K standard, 1M lanjutan) |
| Penggunaan Komputer | Natif, terkini — yang pertama dibina ke dalam model am |
| Kecekapan Token | Ketara lebih sedikit token daripada GPT-5.2 untuk tugasan yang setara |
| Harga API | $2.50 input / $15.00 output setiap 1M token |
| Varian | Standard, Thinking, Pro, Mini, Nano |
| Pemikiran Interaktif | Pelan awal + pembetulan arah semasa respons |
Apakah Itu GPT-5.4?
GPT-5.4 ialah model bahasa besar utama OpenAI, yang dilancarkan pada 5 Mac 2026. Ia menggabungkan kekuatan pengekodan terbaik daripada GPT-5.3 Codex dengan keupayaan penggunaan komputer autonomi yang revolusioner, tetingkap konteks 1 juta token, dan sistem pemikiran interaktif yang baharu.
Berita utamanya: GPT-5.4 ialah model AI kegunaan am pertama yang melampaui prestasi manusia dalam tugasan komputer desktop. Ia mendapat skor 75.0% pada OSWorld-Verified — sebuah penanda aras di mana penguji pakar manusia mendapat skor 72.4%. Tiada model lain yang pernah melepasi ambang tersebut dengan jelas sebelum ini.
Ini merupakan peningkatan sebanyak 28 mata berbanding GPT-5.2 (47.3%) dalam tempoh kurang daripada empat bulan. Model ini boleh menghuraikan koordinat skrin daripada tangkapan skrin dan mengeluarkan arahan tetikus serta papan kekunci secara terus, membolehkannya mengemudi fail, pelayar, terminal, dan perisian produktiviti secara autonomi.
Ciri-Ciri Utama
Penggunaan Komputer Natif
Tidak seperti model terdahulu yang memerlukan alatan luaran untuk kawalan komputer, GPT-5.4 mempunyai keupayaan penggunaan komputer yang terbina di dalamnya. Dalam aplikasi Codex dan melalui API, model ini boleh:
- Mengemudi persekitaran desktop melalui tangkapan skrin dan tindakan papan kekunci/tetikus
- Beroperasi merentas pelbagai aplikasi secara berturutan
- Melengkapkan aliran kerja berbilang langkah (pengurusan fail, tugasan pelayar, operasi terminal)
- Mengendalikan perisian produktiviti seperti hamparan, persembahan, dan dokumen
Tetingkap Konteks 1 Juta Token
GPT-5.4 menyokong sehingga 1.05M token konteks. Tetingkap standard ialah 272K token; permintaan yang melebihi ambang ini diproses pada kadar 2x ganda kadar input biasa. Konteks yang besar ini sangat kritikal untuk aliran kerja agen di mana model perlu menyimpan sejarah penggunaan alatan yang panjang, pangkalan kod yang besar, atau set dokumen yang panjang dalam memori.
Pemikiran Interaktif
GPT-5.4 Thinking memperkenalkan paradigma baharu: model menyediakan pelan awal bagi penaakulannya, dan anda boleh mengemudinya semasa respons. Tambah arahan, betulkan haluan, atau perhalusi arah tanpa perlu bermula dari awal. Ini merupakan peningkatan kualiti hidup yang signifikan untuk tugasan yang kompleks dan berbilang langkah.
Kecekapan Token yang Dipertingkatkan
OpenAI melaporkan GPT-5.4 menggunakan ketara lebih sedikit token untuk menyelesaikan masalah berbanding GPT-5.2, di samping pengurangan 33% dalam ralat fakta. Bagi penggunaan pengeluaran, ini bermakna kos yang lebih rendah bagi setiap tugasan walaupun sebelum mengambil kira harga yang kompetitif.
Penanda Aras
Di Mana GPT-5.4 Mendahului
| Penanda Aras | Apa Yang Diuji | GPT-5.4 | Pesaing Terbaik |
|---|---|---|---|
| OSWorld-Verified | Penggunaan komputer desktop | 75.0% | Claude Opus 4.6: 72.7% |
| Toolathlon | Penggunaan alatan/API berbilang langkah | Skor tertinggi | — |
| GDPval | Kerja pengetahuan | 83% | — |
Perbandingan Model Penuh
| Penanda Aras | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.7% | N/A |
| SWE-bench Verified | ~80% | 80.8% | 80.6% |
| SWE-bench Pro | 57.7% | ~45% | 54.2% |
| ARC-AGI-2 | 52.9% | 68.8% | 77.1% |
| GDPval | 83% | — | — |
Maksud di Sebalik Nombor
GPT-5.4 ialah model pertama yang boleh mengendalikan penggunaan komputer, pengekodan, dan kerja pengetahuan pada tahap sempadan (frontier level) secara serentak. Skor OSWorld 75% adalah pencapaian yang paling jelas — ini bermakna model tersebut boleh melengkapkan tiga daripada empat tugasan desktop dunia nyata yang dianggap mencabar oleh pakar manusia sekalipun.
Walau bagaimanapun, gambaran ini mempunyai nuansa. Pada SWE-bench Verified (pengekodan dunia nyata), kedua-dua Claude Opus 4.6 dan Gemini 3.1 Pro mengatasi GPT-5.4 dengan ketara pada 80.8% dan 80.6%. Pada penaakulan abstrak (ARC-AGI-2), GPT-5.4 mengekori Claude Opus 4.6 sebanyak 16 mata peratusan dan Gemini 3.1 Pro sebanyak lebih 24 mata.
Kesimpulannya: GPT-5.4 menang dalam kawalan komputer autonomi dan penggunaan alatan praktikal, tetapi ia bukanlah model terbaik untuk setiap tugasan.
Varian Model dan Harga
GPT-5.4 hadir dalam lima varian, masing-masing menyasarkan kes penggunaan dan bajet yang berbeza:
| Varian | Input (setiap 1M token) | Output (setiap 1M token) | Terbaik Untuk |
|---|---|---|---|
| GPT-5.4 Standard | $2.50 | $15.00 | Kegunaan am, penggunaan komputer, aliran kerja agen |
| GPT-5.4 Thinking | $2.50 | $15.00 | Penaakulan kompleks dengan pengemudian pelan interaktif |
| GPT-5.4 Pro | $30.00 | $180.00 | Undang-undang, perubatan, kewangan — ketepatan maksimum |
| GPT-5.4 Mini | $0.75 | $4.50 | Beban kerja volum tinggi, sensitif terhadap kependaman |
| GPT-5.4 Nano | TBD | TBD | Kes penggunaan pinggir (edge) dan terbenam |
- Prompt yang melebihi 272K token dikenakan 2x kadar input standard ($5.00/MTok untuk Standard).
- Titik akhir mastautin data wilayah dikenakan surcaj 10% merentas semua varian.
- GPT-5.4 Mini tersedia untuk pengguna ChatGPT peringkat percuma; Nano adalah untuk API sahaja.
Perbandingan Kos: GPT-5.4 vs Claude Opus 4.6
Untuk beban kerja harian biasa:
| GPT-5.4 | Claude Opus 4.6 | |
|---|---|---|
| Kos harian purata | ~$5.50 | ~$10.00 |
| Kos bulanan purata | ~$165 | ~$300 |
| Nisbah kos | 1x | ~1.8x |
GPT-5.4 adalah kira-kira 50% lebih murah daripada Claude Opus 4.6 untuk daya pemprosesan token yang setara. Varian Mini melangkah lebih jauh — mendapat skor 54.38% pada SWE-bench Pro dengan kos kira-kira 6x ganda lebih rendah.
GPT-5.4 vs Claude Opus 4.6: Bila Hendak Menggunakan yang Mana?
Ini adalah persoalan yang ditanya oleh kebanyakan pasukan pada April 2026. Jawapannya bergantung pada beban kerja anda.
Pilih GPT-5.4 Jika Anda Memerlukan:
- Automasi desktop dan penggunaan komputer — 75.0% OSWorld berbanding 72.7% untuk Opus 4.6
- Panggilan alatan dan orkestrasi API — ketepatan yang lebih baik dalam langkah yang lebih sedikit pada Toolathlon
- Kecekapan kos — kira-kira separuh daripada kos setiap token Opus 4.6
- Penaakulan cekap-token — kurang token bagi setiap masalah bermakna bil yang lebih rendah
- Prototaip pantas — lelaran pantas dengan overhed yang lebih rendah
Pilih Claude Opus 4.6 Jika Anda Memerlukan:
- Refaktoran kod pelbagai fail yang kompleks — mendahului SWE-bench Verified pada 80.8%
- Koheren konteks-panjang — lebih kuat dalam mengekalkan kualiti merentas konteks yang sangat panjang
- Penaakulan abstrak dan novel — mendahului 16 mata pada ARC-AGI-2
- Carian agen dan seni bina kod mendalam — cemerlang dalam tugasan yang memerlukan pemahaman mendalam
- Kualiti dan nuansa penulisan — menduduki tempat #1 dalam kepuasan pengguna Chatbot Arena
Ringkasan Bersemuka
| Dimensi | Pemenang | Margin |
|---|---|---|
| Penggunaan Komputer (OSWorld) | GPT-5.4 | 75.0% vs 72.7% |
| Pengekodan (SWE-bench Verified) | Claude Opus 4.6 | 80.8% vs ~80% |
| Penaakulan Abstrak (ARC-AGI-2) | Claude Opus 4.6 | 68.8% vs 52.9% |
| Panggilan Alatan (Toolathlon) | GPT-5.4 | Langkah lebih sedikit, ketepatan lebih baik |
| Kerja Pengetahuan (GDPval) | GPT-5.4 | 83% |
| Harga | GPT-5.4 | ~50% lebih murah |
| Kepuasan Pengguna | Claude Opus 4.6 | #1 Chatbot Arena |
Cara Mengakses GPT-5.4
GPT-5.4 tersedia melalui:
- ChatGPT — GPT-5.4 Thinking ialah model lalai untuk pengguna Plus, Pro, dan Team. Mini tersedia untuk pengguna peringkat percuma.
- OpenAI API — Kesemua lima varian boleh diakses melalui titik akhir pelengkapan (completions) dan sembang standard.
- Aplikasi Codex — Keupayaan penggunaan komputer penuh dengan agen desktop.
- OpenRouter — Akses pihak ketiga pada kadar yang kompetitif.
computer_use dan menyediakan tangkapan skrin sebagai input imej. Model akan mengembalikan tindakan berstruktur (klik, taip, skrol) yang akan diterjemahkan oleh aplikasi anda menjadi acara sistem.
FAQ
Adakah GPT-5.4 lebih baik daripada Claude Opus 4.6?
Ia bergantung pada tugasan tersebut. GPT-5.4 menang dalam penggunaan komputer, panggilan alatan, dan kecekapan kos. Claude Opus 4.6 menang dalam pengekodan kompleks, penaakulan abstrak, dan kualiti penulisan. Bagi kebanyakan pasukan, pilihan bergantung pada sama ada beban kerja utama anda ialah automasi desktop (GPT-5.4) atau kejuruteraan perisian yang mendalam (Opus 4.6).
Berapakah kos GPT-5.4?
Model standard berharga $2.50 bagi setiap sejuta token input dan $15.00 bagi setiap sejuta token output. Varian Pro ialah $30/$180 bagi setiap MTok. Mini ialah $0.75/$4.50 bagi setiap MTok. Prompt yang melebihi 272K token dikenakan bayaran dua kali ganda kadar input.
Bolehkah GPT-5.4 benar-benar menggunakan komputer lebih baik daripada manusia?
Pada penanda aras OSWorld-Verified, ya — 75.0% berbanding garis dasar pakar manusia 72.4%. Walau bagaimanapun, penanda aras mengukur kategori tugasan tertentu. Penggunaan komputer dunia nyata melibatkan pertimbangan, konteks, dan kebolehsuaian yang tidak dapat ditangkap sepenuhnya oleh penanda aras. Ia sebaiknya dianggap sebagai luar biasa (superhuman) pada tugasan desktop berstruktur, bukannya pengganti menyeluruh bagi penggunaan komputer manusia.
Berapakah tetingkap konteks untuk GPT-5.4?
Sehingga 1.05 juta token. Peringkat standard ialah 272K token. Melangkaui 272K akan menggandakan kos token input. Konteks penuh 1M sangat penting untuk aliran kerja agen yang mengumpul sejarah interaksi yang panjang.
Patutkah saya menaik taraf daripada GPT-5.3 Codex?
Jika beban kerja anda melibatkan penggunaan komputer atau orkestrasi pelbagai alatan, ya. Lonjakan daripada 64.7% kepada 75.0% pada OSWorld adalah substansial. Untuk tugasan pengekodan tulen, peningkatan berbanding GPT-5.3 Codex adalah lebih bersifat tambahan — SWE-bench Pro meningkat daripada 56.8% kepada 57.7%. Nilaikan berdasarkan kes penggunaan khusus anda.
Apakah varian model yang tersedia?
Lima: Standard, Thinking, Pro, Mini, dan Nano. Standard dan Thinking berkongsi harga yang sama dan merupakan model utama untuk kebanyakan kes penggunaan. Pro ialah peringkat premium untuk ketepatan maksimum. Mini mensasarkan penggunaan pengeluaran yang sensitif kos. Nano direka untuk aplikasi pinggir dan terbenam.
Kesimpulan
GPT-5.4 menandakan titik perubahan tulen bagi agen AI autonomi. Ia merupakan model kegunaan am pertama yang menewaskan pakar manusia dalam penggunaan komputer desktop, dan ia melakukannya pada kos 50% lebih murah daripada pesaing utamanya. Barisan lima varian bermakna terdapat GPT-5.4 untuk setiap bajet dan keperluan kependaman.
Namun begitu, ia bukanlah yang terbaik dalam segala-galanya. Claude Opus 4.6 kekal sebagai pilihan yang lebih kuat untuk kejuruteraan perisian yang kompleks dan penaakulan abstrak. Gemini 3.1 Pro masih mendahului dalam beberapa penanda aras penaakulan. Jawapan yang tepat bagi kebanyakan pasukan bukanlah "model mana yang terbaik" tetapi "model mana yang terbaik untuk tugasan ini."
Jika anda sedang membina produk dikuasakan AI dan ingin memanfaatkan model seperti GPT-5.4 dan Claude Opus 4.6 tanpa terperangkap dalam masalah infrastruktur, Y Build membantu anda melancarkan produk dengan lebih cepat. Kami menyediakan alatan dan platform untuk membina, mengerah, dan melelar aplikasi AI — supaya anda boleh fokus pada produk, bukan teknikaliti sistem.
Sumber: Pengumuman OpenAI GPT-5.4, Harga OpenAI API, Panduan Lengkap NxCode GPT-5.4, Perbandingan NxCode GPT-5.4 vs Claude Opus 4.6, Gambaran Keseluruhan DataCamp GPT-5.4, Artificial Analysis GPT-5.4, Perbandingan Penanda Aras MindStudio, Nerd Level Tech: GPT-5.4 Menewaskan Manusia