Panduan GPT-5.4: Model Agen Autonomi OpenAI (2026)

TL;DR

OpenAI melancarkan GPT-5.4 pada 5 Mac 2026 — model kegunaan am pertama yang menewaskan manusia dalam penggunaan komputer secara autonomi. Statistik utama:

Ciri	Perincian
OSWorld-Verified	75.0% — mengatasi garis dasar manusia (72.4%)
SWE-bench Pro	57.7% — pengekodan yang kuat, tetapi mengekori Claude Opus 4.6 (80.8%)
Tetingkap Konteks	Sehingga 1.05M token (272K standard, 1M lanjutan)
Penggunaan Komputer	Natif, terkini — yang pertama dibina ke dalam model am
Kecekapan Token	Ketara lebih sedikit token daripada GPT-5.2 untuk tugasan yang setara
Harga API	$2.50 input / $15.00 output setiap 1M token
Varian	Standard, Thinking, Pro, Mini, Nano
Pemikiran Interaktif	Pelan awal + pembetulan arah semasa respons

Apakah Itu GPT-5.4?

GPT-5.4 ialah model bahasa besar utama OpenAI, yang dilancarkan pada 5 Mac 2026. Ia menggabungkan kekuatan pengekodan terbaik daripada GPT-5.3 Codex dengan keupayaan penggunaan komputer autonomi yang revolusioner, tetingkap konteks 1 juta token, dan sistem pemikiran interaktif yang baharu.

Berita utamanya: GPT-5.4 ialah model AI kegunaan am pertama yang melampaui prestasi manusia dalam tugasan komputer desktop. Ia mendapat skor 75.0% pada OSWorld-Verified — sebuah penanda aras di mana penguji pakar manusia mendapat skor 72.4%. Tiada model lain yang pernah melepasi ambang tersebut dengan jelas sebelum ini.

Ini merupakan peningkatan sebanyak 28 mata berbanding GPT-5.2 (47.3%) dalam tempoh kurang daripada empat bulan. Model ini boleh menghuraikan koordinat skrin daripada tangkapan skrin dan mengeluarkan arahan tetikus serta papan kekunci secara terus, membolehkannya mengemudi fail, pelayar, terminal, dan perisian produktiviti secara autonomi.

Ciri-Ciri Utama

Penggunaan Komputer Natif

Tidak seperti model terdahulu yang memerlukan alatan luaran untuk kawalan komputer, GPT-5.4 mempunyai keupayaan penggunaan komputer yang terbina di dalamnya. Dalam aplikasi Codex dan melalui API, model ini boleh:

Mengemudi persekitaran desktop melalui tangkapan skrin dan tindakan papan kekunci/tetikus
Beroperasi merentas pelbagai aplikasi secara berturutan
Melengkapkan aliran kerja berbilang langkah (pengurusan fail, tugasan pelayar, operasi terminal)
Mengendalikan perisian produktiviti seperti hamparan, persembahan, dan dokumen

Tetingkap Konteks 1 Juta Token

GPT-5.4 menyokong sehingga 1.05M token konteks. Tetingkap standard ialah 272K token; permintaan yang melebihi ambang ini diproses pada kadar 2x ganda kadar input biasa. Konteks yang besar ini sangat kritikal untuk aliran kerja agen di mana model perlu menyimpan sejarah penggunaan alatan yang panjang, pangkalan kod yang besar, atau set dokumen yang panjang dalam memori.

Pemikiran Interaktif

GPT-5.4 Thinking memperkenalkan paradigma baharu: model menyediakan pelan awal bagi penaakulannya, dan anda boleh mengemudinya semasa respons. Tambah arahan, betulkan haluan, atau perhalusi arah tanpa perlu bermula dari awal. Ini merupakan peningkatan kualiti hidup yang signifikan untuk tugasan yang kompleks dan berbilang langkah.

Kecekapan Token yang Dipertingkatkan

OpenAI melaporkan GPT-5.4 menggunakan ketara lebih sedikit token untuk menyelesaikan masalah berbanding GPT-5.2, di samping pengurangan 33% dalam ralat fakta. Bagi penggunaan pengeluaran, ini bermakna kos yang lebih rendah bagi setiap tugasan walaupun sebelum mengambil kira harga yang kompetitif.

Penanda Aras

Di Mana GPT-5.4 Mendahului

Penanda Aras	Apa Yang Diuji	GPT-5.4	Pesaing Terbaik
OSWorld-Verified	Penggunaan komputer desktop	75.0%	Claude Opus 4.6: 72.7%
Toolathlon	Penggunaan alatan/API berbilang langkah	Skor tertinggi	—
GDPval	Kerja pengetahuan	83%	—

Perbandingan Model Penuh

Penanda Aras	GPT-5.4	Claude Opus 4.6	Gemini 3.1 Pro
OSWorld-Verified	75.0%	72.7%	N/A
SWE-bench Verified	~80%	80.8%	80.6%
SWE-bench Pro	57.7%	~45%	54.2%
ARC-AGI-2	52.9%	68.8%	77.1%
GDPval	83%	—	—

Maksud di Sebalik Nombor

GPT-5.4 ialah model pertama yang boleh mengendalikan penggunaan komputer, pengekodan, dan kerja pengetahuan pada tahap sempadan (frontier level) secara serentak. Skor OSWorld 75% adalah pencapaian yang paling jelas — ini bermakna model tersebut boleh melengkapkan tiga daripada empat tugasan desktop dunia nyata yang dianggap mencabar oleh pakar manusia sekalipun.

Walau bagaimanapun, gambaran ini mempunyai nuansa. Pada SWE-bench Verified (pengekodan dunia nyata), kedua-dua Claude Opus 4.6 dan Gemini 3.1 Pro mengatasi GPT-5.4 dengan ketara pada 80.8% dan 80.6%. Pada penaakulan abstrak (ARC-AGI-2), GPT-5.4 mengekori Claude Opus 4.6 sebanyak 16 mata peratusan dan Gemini 3.1 Pro sebanyak lebih 24 mata.

Kesimpulannya: GPT-5.4 menang dalam kawalan komputer autonomi dan penggunaan alatan praktikal, tetapi ia bukanlah model terbaik untuk setiap tugasan.

Varian Model dan Harga

GPT-5.4 hadir dalam lima varian, masing-masing menyasarkan kes penggunaan dan bajet yang berbeza:

Varian	Input (setiap 1M token)	Output (setiap 1M token)	Terbaik Untuk
GPT-5.4 Standard	$2.50	$15.00	Kegunaan am, penggunaan komputer, aliran kerja agen
GPT-5.4 Thinking	$2.50	$15.00	Penaakulan kompleks dengan pengemudian pelan interaktif
GPT-5.4 Pro	$30.00	$180.00	Undang-undang, perubatan, kewangan — ketepatan maksimum
GPT-5.4 Mini	$0.75	$4.50	Beban kerja volum tinggi, sensitif terhadap kependaman
GPT-5.4 Nano	TBD	TBD	Kes penggunaan pinggir (edge) dan terbenam

Nota harga penting:

Prompt yang melebihi 272K token dikenakan 2x kadar input standard ($5.00/MTok untuk Standard).
Titik akhir mastautin data wilayah dikenakan surcaj 10% merentas semua varian.
GPT-5.4 Mini tersedia untuk pengguna ChatGPT peringkat percuma; Nano adalah untuk API sahaja.

Perbandingan Kos: GPT-5.4 vs Claude Opus 4.6

Untuk beban kerja harian biasa:

GPT-5.4	Claude Opus 4.6
Kos harian purata	~$5.50	~$10.00
Kos bulanan purata	~$165	~$300
Nisbah kos	1x	~1.8x

GPT-5.4 adalah kira-kira 50% lebih murah daripada Claude Opus 4.6 untuk daya pemprosesan token yang setara. Varian Mini melangkah lebih jauh — mendapat skor 54.38% pada SWE-bench Pro dengan kos kira-kira 6x ganda lebih rendah.

GPT-5.4 vs Claude Opus 4.6: Bila Hendak Menggunakan yang Mana?

Ini adalah persoalan yang ditanya oleh kebanyakan pasukan pada April 2026. Jawapannya bergantung pada beban kerja anda.

Pilih GPT-5.4 Jika Anda Memerlukan:

Automasi desktop dan penggunaan komputer — 75.0% OSWorld berbanding 72.7% untuk Opus 4.6
Panggilan alatan dan orkestrasi API — ketepatan yang lebih baik dalam langkah yang lebih sedikit pada Toolathlon
Kecekapan kos — kira-kira separuh daripada kos setiap token Opus 4.6
Penaakulan cekap-token — kurang token bagi setiap masalah bermakna bil yang lebih rendah
Prototaip pantas — lelaran pantas dengan overhed yang lebih rendah

Pilih Claude Opus 4.6 Jika Anda Memerlukan:

Refaktoran kod pelbagai fail yang kompleks — mendahului SWE-bench Verified pada 80.8%
Koheren konteks-panjang — lebih kuat dalam mengekalkan kualiti merentas konteks yang sangat panjang
Penaakulan abstrak dan novel — mendahului 16 mata pada ARC-AGI-2
Carian agen dan seni bina kod mendalam — cemerlang dalam tugasan yang memerlukan pemahaman mendalam
Kualiti dan nuansa penulisan — menduduki tempat #1 dalam kepuasan pengguna Chatbot Arena

Ringkasan Bersemuka

Dimensi	Pemenang	Margin
Penggunaan Komputer (OSWorld)	GPT-5.4	75.0% vs 72.7%
Pengekodan (SWE-bench Verified)	Claude Opus 4.6	80.8% vs ~80%
Penaakulan Abstrak (ARC-AGI-2)	Claude Opus 4.6	68.8% vs 52.9%
Panggilan Alatan (Toolathlon)	GPT-5.4	Langkah lebih sedikit, ketepatan lebih baik
Kerja Pengetahuan (GDPval)	GPT-5.4	83%
Harga	GPT-5.4	~50% lebih murah
Kepuasan Pengguna	Claude Opus 4.6	#1 Chatbot Arena

Cara Mengakses GPT-5.4

GPT-5.4 tersedia melalui:

ChatGPT — GPT-5.4 Thinking ialah model lalai untuk pengguna Plus, Pro, dan Team. Mini tersedia untuk pengguna peringkat percuma.
OpenAI API — Kesemua lima varian boleh diakses melalui titik akhir pelengkapan (completions) dan sembang standard.
Aplikasi Codex — Keupayaan penggunaan komputer penuh dengan agen desktop.
OpenRouter — Akses pihak ketiga pada kadar yang kompetitif.

Untuk menggunakan ciri penggunaan komputer melalui API, anda perlu membolehkan parameter alatan computer_use dan menyediakan tangkapan skrin sebagai input imej. Model akan mengembalikan tindakan berstruktur (klik, taip, skrol) yang akan diterjemahkan oleh aplikasi anda menjadi acara sistem.

FAQ

Adakah GPT-5.4 lebih baik daripada Claude Opus 4.6?

Ia bergantung pada tugasan tersebut. GPT-5.4 menang dalam penggunaan komputer, panggilan alatan, dan kecekapan kos. Claude Opus 4.6 menang dalam pengekodan kompleks, penaakulan abstrak, dan kualiti penulisan. Bagi kebanyakan pasukan, pilihan bergantung pada sama ada beban kerja utama anda ialah automasi desktop (GPT-5.4) atau kejuruteraan perisian yang mendalam (Opus 4.6).

Berapakah kos GPT-5.4?

Model standard berharga $2.50 bagi setiap sejuta token input dan $15.00 bagi setiap sejuta token output. Varian Pro ialah $30/$180 bagi setiap MTok. Mini ialah $0.75/$4.50 bagi setiap MTok. Prompt yang melebihi 272K token dikenakan bayaran dua kali ganda kadar input.

Bolehkah GPT-5.4 benar-benar menggunakan komputer lebih baik daripada manusia?

Pada penanda aras OSWorld-Verified, ya — 75.0% berbanding garis dasar pakar manusia 72.4%. Walau bagaimanapun, penanda aras mengukur kategori tugasan tertentu. Penggunaan komputer dunia nyata melibatkan pertimbangan, konteks, dan kebolehsuaian yang tidak dapat ditangkap sepenuhnya oleh penanda aras. Ia sebaiknya dianggap sebagai luar biasa (superhuman) pada tugasan desktop berstruktur, bukannya pengganti menyeluruh bagi penggunaan komputer manusia.

Berapakah tetingkap konteks untuk GPT-5.4?

Sehingga 1.05 juta token. Peringkat standard ialah 272K token. Melangkaui 272K akan menggandakan kos token input. Konteks penuh 1M sangat penting untuk aliran kerja agen yang mengumpul sejarah interaksi yang panjang.

Patutkah saya menaik taraf daripada GPT-5.3 Codex?

Jika beban kerja anda melibatkan penggunaan komputer atau orkestrasi pelbagai alatan, ya. Lonjakan daripada 64.7% kepada 75.0% pada OSWorld adalah substansial. Untuk tugasan pengekodan tulen, peningkatan berbanding GPT-5.3 Codex adalah lebih bersifat tambahan — SWE-bench Pro meningkat daripada 56.8% kepada 57.7%. Nilaikan berdasarkan kes penggunaan khusus anda.

Apakah varian model yang tersedia?

Lima: Standard, Thinking, Pro, Mini, dan Nano. Standard dan Thinking berkongsi harga yang sama dan merupakan model utama untuk kebanyakan kes penggunaan. Pro ialah peringkat premium untuk ketepatan maksimum. Mini mensasarkan penggunaan pengeluaran yang sensitif kos. Nano direka untuk aplikasi pinggir dan terbenam.

Kesimpulan

GPT-5.4 menandakan titik perubahan tulen bagi agen AI autonomi. Ia merupakan model kegunaan am pertama yang menewaskan pakar manusia dalam penggunaan komputer desktop, dan ia melakukannya pada kos 50% lebih murah daripada pesaing utamanya. Barisan lima varian bermakna terdapat GPT-5.4 untuk setiap bajet dan keperluan kependaman.

Namun begitu, ia bukanlah yang terbaik dalam segala-galanya. Claude Opus 4.6 kekal sebagai pilihan yang lebih kuat untuk kejuruteraan perisian yang kompleks dan penaakulan abstrak. Gemini 3.1 Pro masih mendahului dalam beberapa penanda aras penaakulan. Jawapan yang tepat bagi kebanyakan pasukan bukanlah "model mana yang terbaik" tetapi "model mana yang terbaik untuk tugasan ini."

Jika anda sedang membina produk dikuasakan AI dan ingin memanfaatkan model seperti GPT-5.4 dan Claude Opus 4.6 tanpa terperangkap dalam masalah infrastruktur, Y Build membantu anda melancarkan produk dengan lebih cepat. Kami menyediakan alatan dan platform untuk membina, mengerah, dan melelar aplikasi AI — supaya anda boleh fokus pada produk, bukan teknikaliti sistem.

Sumber: Pengumuman OpenAI GPT-5.4, Harga OpenAI API, Panduan Lengkap NxCode GPT-5.4, Perbandingan NxCode GPT-5.4 vs Claude Opus 4.6, Gambaran Keseluruhan DataCamp GPT-5.4, Artificial Analysis GPT-5.4, Perbandingan Penanda Aras MindStudio, Nerd Level Tech: GPT-5.4 Menewaskan Manusia