Hướng dẫn về GPT-5.4: Mô hình Tác nhân Tự chủ của OpenAI (2026)
GPT-5.4 đạt 75% trên OSWorld, đánh bại con người trong việc sử dụng máy tính. Context 1M, $2.50/MTok, 5 biến thể mô hình. Bảng điểm chuẩn, giá cả và hướng dẫn so sánh đầy đủ.
TL;DR
OpenAI đã phát hành GPT-5.4 vào ngày 5 tháng 3 năm 2026 — mô hình đa dụng đầu tiên đánh bại con người trong việc sử dụng máy tính tự chủ. Các thông số chính:
| Tính năng | Chi tiết |
|---|---|
| OSWorld-Verified | 75.0% — vượt qua mức cơ sở của con người (72.4%) |
| SWE-bench Pro | 57.7% — lập trình mạnh mẽ, nhưng xếp sau Claude Opus 4.6 (80.8%) |
| Cửa sổ ngữ cảnh | Lên đến 1.05M tokens (272K tiêu chuẩn, 1M mở rộng) |
| Computer Use | Bản địa, hiện đại nhất — lần đầu tiên được tích hợp vào một mô hình tổng quát |
| Hiệu quả Token | Ít token hơn đáng kể so với GPT-5.2 cho các tác vụ tương đương |
| Giá API | $2.50 đầu vào / $15.00 đầu ra trên mỗi 1M tokens |
| Biến thể | Standard, Thinking, Pro, Mini, Nano |
| Interactive Thinking | Lập kế hoạch trước + điều hướng giữa chừng phản hồi |
GPT-5.4 là gì?
GPT-5.4 là mô hình ngôn ngữ lớn hàng đầu của OpenAI, được phát hành vào ngày 5 tháng 3 năm 2026. Nó kết hợp những thế mạnh về lập trình của GPT-5.3 Codex với khả năng sử dụng máy tính tự chủ đột phá, cửa sổ ngữ cảnh 1 triệu token và hệ thống tư duy tương tác mới.
Tiêu điểm: GPT-5.4 là mô hình AI đa dụng đầu tiên vượt qua hiệu suất của con người trong các tác vụ máy tính để bàn. Nó đạt 75.0% trên OSWorld-Verified — một bài kiểm tra điểm chuẩn mà các chuyên gia kiểm thử là con người đạt 72.4%. Chưa có mô hình nào khác vượt qua ngưỡng đó một cách rõ ràng trước đây.
Đây là một sự cải thiện 28 điểm so với GPT-5.2 (47.3%) trong vòng chưa đầy bốn tháng. Mô hình có thể phân tích tọa độ màn hình từ ảnh chụp màn hình và đưa ra các lệnh chuột và bàn phím trực tiếp, cho phép nó điều hướng tệp, trình duyệt, terminal và các phần mềm năng suất một cách tự chủ.
Các tính năng chính
Native Computer Use (Sử dụng máy tính bản địa)
Không giống như các mô hình trước đây cần các công cụ bên ngoài để điều khiển máy tính, GPT-5.4 đã tích hợp sẵn khả năng sử dụng máy tính. Trong ứng dụng Codex và thông qua API, mô hình có thể:
- Điều hướng môi trường máy tính để bàn thông qua ảnh chụp màn hình và các hành động bàn phím/chuột
- Vận hành trên nhiều ứng dụng theo trình tự
- Hoàn thành các quy trình làm việc đa bước (quản lý tệp, tác vụ trình duyệt, thao tác terminal)
- Xử lý các phần mềm năng suất như bảng tính, bài thuyết trình và văn bản
Cửa sổ ngữ cảnh 1 triệu Token
GPT-5.4 hỗ trợ ngữ cảnh lên đến 1.05M tokens. Cửa sổ tiêu chuẩn là 272K tokens; các yêu cầu vượt quá ngưỡng này được xử lý với tốc độ gấp 2 lần tốc độ đầu vào thông thường. Ngữ cảnh khổng lồ này rất quan trọng đối với các quy trình làm việc dạng tác nhân (agentic workflows), nơi mô hình cần lưu giữ lịch sử sử dụng công cụ dài, các kho mã nguồn lớn hoặc các bộ tài liệu mở rộng trong bộ nhớ.
Interactive Thinking (Tư duy tương tác)
GPT-5.4 Thinking giới thiệu một mô hình mới: mô hình cung cấp một kế hoạch trước về lập luận của nó, và bạn có thể điều hướng nó giữa chừng phản hồi. Thêm hướng dẫn, sửa lỗi lộ trình hoặc tinh chỉnh hướng đi mà không cần bắt đầu lại. Đây là một cải thiện đáng kể về trải nghiệm người dùng cho các tác vụ phức tạp, đa bước.
Cải thiện hiệu quả Token
OpenAI báo cáo rằng GPT-5.4 sử dụng ít token hơn đáng kể để giải quyết vấn đề so với GPT-5.2, cùng với việc giảm 33% lỗi thực tế. Đối với việc triển khai thực tế, điều này có nghĩa là chi phí cho mỗi tác vụ thấp hơn ngay cả khi chưa tính đến mức giá cạnh tranh.
Điểm chuẩn (Benchmarks)
Những lĩnh vực GPT-5.4 dẫn đầu
| Điểm chuẩn | Nội dung kiểm tra | GPT-5.4 | Đối thủ tốt nhất |
|---|---|---|---|
| OSWorld-Verified | Sử dụng máy tính để bàn | 75.0% | Claude Opus 4.6: 72.7% |
| Toolathlon | Sử dụng công cụ/API đa bước | Điểm cao nhất | — |
| GDPval | Công việc tri thức | 83% | — |
So sánh mô hình đầy đủ
| Điểm chuẩn | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.7% | N/A |
| SWE-bench Verified | ~80% | 80.8% | 80.6% |
| SWE-bench Pro | 57.7% | ~45% | 54.2% |
| ARC-AGI-2 | 52.9% | 68.8% | 77.1% |
| GDPval | 83% | — | — |
Ý nghĩa của các con số
GPT-5.4 là mô hình đầu tiên xử lý một cách đáng tin cậy việc sử dụng máy tính, lập trình và công việc tri thức ở cấp độ tiên phong cùng một lúc. Điểm số 75% trên OSWorld là cột mốc rõ ràng nhất — điều đó có nghĩa là mô hình có thể hoàn thành ba trong bốn tác vụ máy tính để bàn thực tế mà ngay cả những chuyên gia là con người cũng thấy thách thức.
Tuy nhiên, bức tranh vẫn có sự khác biệt. Trên SWE-bench Verified (lập trình thực tế), cả Claude Opus 4.6 và Gemini 3.1 Pro đều vượt trội hơn hẳn GPT-5.4 với lần lượt 80.8% và 80.6%. Về lập luận trừu tượng (ARC-AGI-2), GPT-5.4 kém Claude Opus 4.6 khoảng 16 điểm phần trăm và kém Gemini 3.1 Pro hơn 24 điểm.
Kết luận: GPT-5.4 chiến thắng về khả năng điều khiển máy tính tự chủ và sử dụng công cụ thực tế, nhưng nó không phải là mô hình tốt nhất cho mọi tác vụ.
Các biến thể mô hình và Giá cả
GPT-5.4 có năm biến thể, mỗi biến thể hướng đến các trường hợp sử dụng và ngân sách khác nhau:
| Biến thể | Đầu vào (trên 1M tokens) | Đầu ra (trên 1M tokens) | Phù hợp nhất cho |
|---|---|---|---|
| GPT-5.4 Standard | $2.50 | $15.00 | Đa dụng, computer use, quy trình tác nhân |
| GPT-5.4 Thinking | $2.50 | $15.00 | Lập luận phức tạp với điều hướng kế hoạch tương tác |
| GPT-5.4 Pro | $30.00 | $180.00 | Pháp lý, y tế, tài chính — độ chính xác tối đa |
| GPT-5.4 Mini | $0.75 | $4.50 | Khối lượng công việc lớn, nhạy cảm với độ trễ |
| GPT-5.4 Nano | TBD | TBD | Các trường hợp sử dụng biên (Edge) và nhúng |
- Các prompt vượt quá 272K tokens sẽ bị tính phí gấp 2 lần tỷ lệ đầu vào tiêu chuẩn ($5.00/MTok cho bản Standard).
- Các điểm cuối lưu trữ dữ liệu khu vực có thêm 10% phụ phí trên tất cả các biến thể.
- GPT-5.4 Mini có sẵn cho người dùng ChatGPT miễn phí; Nano chỉ dành cho API.
So sánh chi phí: GPT-5.4 và Claude Opus 4.6
Đối với khối lượng công việc hàng ngày điển hình:
| GPT-5.4 | Claude Opus 4.6 | |
|---|---|---|
| Chi phí trung bình hàng ngày | ~$5.50 | ~$10.00 |
| Chi phí trung bình hàng tháng | ~$165 | ~$300 |
| Tỷ lệ chi phí | 1x | ~1.8x |
GPT-5.4 rẻ hơn khoảng 50% so với Claude Opus 4.6 cho cùng một lượng token xử lý. Biến thể Mini còn đẩy mức này đi xa hơn — đạt 54.38% trên SWE-bench Pro với chi phí thấp hơn khoảng 6 lần.
GPT-5.4 vs Claude Opus 4.6: Khi nào nên dùng loại nào?
Đây là câu hỏi mà hầu hết các đội ngũ đang đặt ra vào tháng 4 năm 2026. Câu trả lời phụ thuộc vào khối lượng công việc của bạn.
Chọn GPT-5.4 nếu bạn cần:
- Tự động hóa máy tính để bàn và computer use — 75.0% OSWorld so với 72.7% của Opus 4.6
- Gọi công cụ (Tool calling) và điều phối API — độ chính xác tốt hơn với ít bước hơn trên Toolathlon
- Hiệu quả chi phí — chi phí trên mỗi token chỉ bằng khoảng một nửa so với Opus 4.6
- Lập luận tiết kiệm token — ít token hơn cho mỗi vấn đề đồng nghĩa với hóa đơn thấp hơn
- Tạo nguyên mẫu nhanh — lặp lại nhanh chóng với chi phí thấp
Chọn Claude Opus 4.6 nếu bạn cần:
- Tái cấu trúc mã đa tệp phức tạp — dẫn đầu SWE-bench Verified ở mức 80.8%
- Sự mạch lạc trong ngữ cảnh dài — mạnh hơn trong việc duy trì chất lượng trên các ngữ cảnh rất dài
- Lập luận trừu tượng và mới lạ — dẫn trước 16 điểm trên ARC-AGI-2
- Tìm kiếm dạng tác nhân và kiến trúc mã sâu — xuất sắc trong các tác vụ đòi hỏi sự hiểu biết sâu sắc
- Chất lượng viết và sắc thái — xếp hạng #1 về mức độ hài lòng của người dùng trên Chatbot Arena
Tóm tắt đối đầu
| Khía cạnh | Người chiến thắng | Cách biệt |
|---|---|---|
| Computer Use (OSWorld) | GPT-5.4 | 75.0% vs 72.7% |
| Lập trình (SWE-bench Verified) | Claude Opus 4.6 | 80.8% vs ~80% |
| Lập luận trừu tượng (ARC-AGI-2) | Claude Opus 4.6 | 68.8% vs 52.9% |
| Gọi công cụ (Toolathlon) | GPT-5.4 | Ít bước hơn, độ chính xác tốt hơn |
| Công việc tri thức (GDPval) | GPT-5.4 | 83% |
| Giá cả | GPT-5.4 | Rẻ hơn ~50% |
| Sự hài lòng của người dùng | Claude Opus 4.6 | #1 Chatbot Arena |
Cách truy cập GPT-5.4
GPT-5.4 có sẵn thông qua:
- ChatGPT — GPT-5.4 Thinking là mô hình mặc định cho người dùng Plus, Pro và Team. Mini có sẵn cho người dùng miễn phí.
- OpenAI API — Tất cả năm biến thể có thể truy cập thông qua các điểm cuối chat và completions tiêu chuẩn.
- Codex App — Đầy đủ khả năng sử dụng máy tính với tác nhân máy tính để bàn.
- OpenRouter — Truy cập qua bên thứ ba với mức giá cạnh tranh.
computer_use và cung cấp ảnh chụp màn hình dưới dạng đầu vào hình ảnh. Mô hình sẽ trả về các hành động có cấu trúc (click, type, scroll) mà ứng dụng của bạn sẽ dịch thành các sự kiện hệ thống.
Câu hỏi thường gặp (FAQ)
GPT-5.4 có tốt hơn Claude Opus 4.6 không?
Tùy thuộc vào tác vụ. GPT-5.4 thắng về sử dụng máy tính, gọi công cụ và hiệu quả chi phí. Claude Opus 4.6 thắng về lập trình phức tạp, lập luận trừu tượng và chất lượng viết. Đối với hầu hết các đội ngũ, sự lựa chọn phụ thuộc vào việc khối lượng công việc chính của bạn là tự động hóa máy tính để bàn (GPT-5.4) hay kỹ thuật phần mềm chuyên sâu (Opus 4.6).
GPT-5.4 giá bao nhiêu?
Mô hình tiêu chuẩn có giá $2.50 cho mỗi triệu token đầu vào và $15.00 cho mỗi triệu token đầu ra. Biến thể Pro là $30/$180 cho mỗi MTok. Mini là $0.75/$4.50 cho mỗi MTok. Các prompt vượt quá 272K tokens sẽ bị tính phí gấp đôi tỷ lệ đầu vào.
GPT-5.4 thực sự có thể dùng máy tính tốt hơn con người không?
Trên điểm chuẩn OSWorld-Verified, câu trả lời là có — 75.0% so với mức cơ sở của chuyên gia con người là 72.4%. Tuy nhiên, các điểm chuẩn đo lường các danh mục tác vụ cụ thể. Việc sử dụng máy tính trong thế giới thực đòi hỏi sự phán đoán, ngữ cảnh và khả năng thích ứng mà các điểm chuẩn không nắm bắt được đầy đủ. Tốt nhất nên coi nó là "siêu nhân" trong các tác vụ máy tính để bàn có cấu trúc, chứ không phải là sự thay thế hoàn toàn cho việc sử dụng máy tính của con người.
Cửa sổ ngữ cảnh của GPT-5.4 là bao nhiêu?
Lên đến 1.05 triệu tokens. Gói tiêu chuẩn là 272K tokens. Mở rộng vượt quá 272K sẽ làm tăng gấp đôi chi phí token đầu vào. Ngữ cảnh 1M đầy đủ là rất quan trọng cho các quy trình làm việc tác nhân tích lũy lịch sử tương tác dài.
Tôi có nên nâng cấp từ GPT-5.3 Codex không?
Nếu khối lượng công việc của bạn liên quan đến việc sử dụng máy tính hoặc điều phối đa công cụ, thì câu trả lời là có. Bước nhảy từ 64.7% lên 75.0% trên OSWorld là rất đáng kể. Đối với các tác vụ thuần lập trình, sự cải thiện so với GPT-5.3 Codex mang tính gia tăng hơn — SWE-bench Pro tăng từ 56.8% lên 57.7%. Hãy đánh giá dựa trên trường hợp sử dụng cụ thể của bạn.
Những biến thể mô hình nào có sẵn?
Năm biến thể: Standard, Thinking, Pro, Mini và Nano. Standard và Thinking chia sẻ cùng mức giá và là các mô hình chính cho hầu hết các trường hợp sử dụng. Pro là phân khúc cao cấp cho độ chính xác tối đa. Mini nhắm đến việc triển khai thực tế nhạy cảm về chi phí. Nano được thiết kế cho các ứng dụng biên và nhúng.
Kết luận
GPT-5.4 đánh dấu một điểm chuyển mình thực sự cho các tác nhân AI tự chủ. Đây là mô hình đa dụng đầu tiên đánh bại các chuyên gia con người trong việc sử dụng máy tính để bàn, và nó thực hiện điều đó với chi phí rẻ hơn 50% so với đối thủ chính. Với dòng sản phẩm năm biến thể, sẽ luôn có một phiên bản GPT-5.4 phù hợp cho mọi ngân sách và yêu cầu về độ trễ.
Dù vậy, nó không phải là tốt nhất ở mọi thứ. Claude Opus 4.6 vẫn là lựa chọn mạnh mẽ hơn cho kỹ thuật phần mềm phức tạp và lập luận trừu tượng. Gemini 3.1 Pro vẫn dẫn đầu trên một số điểm chuẩn về lập luận. Câu trả lời đúng cho hầu hết các đội ngũ không phải là "mô hình nào tốt nhất" mà là "mô hình nào tốt nhất cho tác vụ này."
Nếu bạn đang xây dựng các sản phẩm hỗ trợ AI và muốn tận dụng các mô hình như GPT-5.4 và Claude Opus 4.6 mà không bị sa lầy vào cơ sở hạ tầng, Y Build sẽ giúp bạn triển khai nhanh hơn. Chúng tôi cung cấp các công cụ và nền tảng để xây dựng, triển khai và lặp lại các ứng dụng AI — để bạn có thể tập trung vào sản phẩm, chứ không phải phần kỹ thuật hệ thống.
Nguồn: OpenAI GPT-5.4 Announcement, OpenAI API Pricing, NxCode GPT-5.4 Complete Guide, NxCode GPT-5.4 vs Claude Opus 4.6, DataCamp GPT-5.4 Overview, Artificial Analysis GPT-5.4, MindStudio Benchmark Comparison, Nerd Level Tech: GPT-5.4 Beats Humans