GPT-5.3 Codex: Agent lập trình tự động của OpenAI

TL;DR

OpenAI đã phát hành GPT-5.3 Codex vào ngày 5 tháng 2 năm 2026 — cùng ngày Anthropic ra mắt Opus 4.6. Các số liệu thống kê chính:

Terminal-Bench 2.0: 77.3% — dẫn đầu tất cả các mô hình về lập trình terminal dạng agent (agentic terminal coding)
SWE-Bench Pro: 56.8% — điểm số cao nhất trên bốn ngôn ngữ lập trình
OSWorld: 64.7% — khả năng sử dụng máy tính mạnh mẽ (nhưng đứng sau 72.5% của Sonnet 4.6)
Nhanh hơn 25% so với GPT-5.2 Codex
Tương tác trong khi làm việc — điều hướng agent ngay giữa tác vụ mà không làm mất ngữ cảnh
Mô hình self-bootstrapping đầu tiên — GPT-5.3 Codex đã giúp debug chính quá trình huấn luyện của nó
Có sẵn trên ứng dụng Codex, CLI và tiện ích mở rộng IDE cho các gói ChatGPT trả phí
Giá API chưa được công bố

Những gì OpenAI đã công bố

GPT-5.3 Codex không chỉ là một mô hình lập trình tốt hơn. Đây là mô hình đầu tiên của OpenAI được thiết kế như một agent vòng đời phần mềm toàn diện (full software lifecycle agent) — từ debug, triển khai, giám sát, viết PRDs, chỉnh sửa nội dung, chạy thử nghiệm và hơn thế nữa.

Tính năng nổi bật nhất: các tác vụ chạy dài tự động (autonomous long-running tasks). Hãy giao cho GPT-5.3 Codex một nhiệm vụ phức tạp, và nó sẽ làm việc trong nhiều giờ — nghiên cứu, sử dụng công cụ, thực thi mã và điều chỉnh kế hoạch khi thực hiện. Bạn có thể điều hướng nó ngay giữa tác vụ mà không mất ngữ cảnh, giống như đang làm việc với một đồng nghiệp.

Tuyên bố gây tranh cãi nhất của OpenAI: GPT-5.3 Codex là "mô hình đầu tiên đóng vai trò quan trọng trong việc tạo ra chính nó." Đội ngũ Codex đã sử dụng các phiên bản sơ khai để debug pipeline huấn luyện, quản lý triển khai và chẩn đoán kết quả đánh giá.

Benchmarks

Nơi GPT-5.3 Codex dẫn đầu

Benchmark	Kiểm tra điều gì	GPT-5.3 Codex	Đối thủ tốt nhất
Terminal-Bench 2.0	Lập trình terminal dạng agent	77.3%	Gemini 3.1 Pro: 68.5%
SWE-Bench Pro	Lập trình đa ngôn ngữ	56.8%	Gemini 3.1 Pro: 54.2%
HumanEval	Tạo mã nguồn	93%	—
GPQA	Suy luận khoa học	81%	Gemini 3.1 Pro: 94.3%

So sánh đầy đủ

Benchmark	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	77.3%	65.4%	59.1%	68.5%
SWE-Bench Pro	56.8%	—	—	54.2%
OSWorld	64.7%	72.7%	72.5%	N/A
SWE-bench Verified	~80%	80.8%	79.6%	80.6%
ARC-AGI-2	52.9%	68.8%	58.3%	77.1%

Ý nghĩa của các con số

GPT-5.3 Codex thống trị về lập trình terminal dạng agent — kiểu công việc mà một agent AI cần điều hướng trong codebase, chạy lệnh, giải thích đầu ra, sửa lỗi và lặp lại. Điểm số 77.3% trên Terminal-Bench cao hơn gần 9 điểm so với đối thủ xếp sau (Gemini 3.1 Pro ở mức 68.5%) và cao hơn 12 điểm so với Opus 4.6 (65.4%).

Tuy nhiên, về khả năng sử dụng máy tính (OSWorld), nó tụt hậu đáng kể so với Claude — 64.7% so với 72.5% của Sonnet 4.6. Và về khả năng suy luận (ARC-AGI-2), nó đứng sau Gemini 3.1 Pro (77.1%) và Opus 4.6 (68.8%).

Các tính năng chính

1. Các phiên làm việc tự động kéo dài nhiều giờ

Các mô hình lập trình trước đây hoạt động theo từng đợt ngắn — bạn đưa prompt, nó phản hồi, bạn lại đưa prompt. GPT-5.3 Codex làm việc liên tục trên các tác vụ phức tạp, tự quản lý quy trình làm việc qua nhiều bước.

Ví dụ về quy trình: "Di chuyển hệ thống xác thực của chúng tôi từ JWT sang OAuth 2.0, cập nhật tất cả các endpoint bị ảnh hưởng, viết test và xác minh việc di chuyển hoạt động tốt." GPT-5.3 Codex sẽ nghiên cứu codebase, lập kế hoạch di chuyển, thực thi từng tệp, chạy test, sửa lỗi và báo cáo lại — có thể kéo dài trong nhiều giờ.

2. Điều hướng tương tác (Interactive Steering)

Bạn có thể chuyển hướng GPT-5.3 Codex trong khi nó đang làm việc mà không làm mất ngữ cảnh. Nếu bạn thấy nó đang đi sai hướng, hãy yêu cầu nó thay đổi. Cuộc hội thoại luôn được duy trì liên tục.

3. Toàn bộ vòng đời phần mềm

OpenAI định vị rõ ràng GPT-5.3 Codex vượt xa việc chỉ viết mã:

Debugging — đọc nhật ký lỗi (error logs), truy vết nguyên nhân gốc rễ, áp dụng các bản sửa lỗi
Deploying — quản lý các pipeline triển khai và cấu hình
Monitoring — theo dõi các vấn đề trong các hệ thống đang chạy
PRDs và tài liệu — viết yêu cầu sản phẩm và tài liệu hướng dẫn
Nghiên cứu người dùng — tổng hợp phản hồi và kết quả thử nghiệm
Testing — tạo và chạy các bộ test (test suites)
Metrics — phân tích dữ liệu hiệu suất

4. Self-Bootstrapping

GPT-5.3 Codex đã sử dụng các phiên bản sơ khai của chính nó trong quá trình phát triển để:

Debug các vấn đề trong pipeline huấn luyện

Quản lý việc triển khai mô hình

Chẩn đoán kết quả đánh giá

Lặp lại quá trình phát triển trò chơi một cách tự động qua hàng triệu token

Đây là lần đầu tiên một mô hình AI được mô tả công khai là đã đóng góp vào việc tạo ra chính nó.

GPT-5.3 Codex vs. Claude Code

Khả năng	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
Terminal coding	77.3%	Opus: 65.4%, Sonnet: 59.1%
Computer use	64.7%	Sonnet: 72.5%, Opus: 72.7%
SWE-bench	~80%	Opus: 80.8%, Sonnet: 79.6%
Tự động nhiều giờ	Có	Hạn chế
Điều hướng tương tác	Có	Có
Tích hợp IDE	Codex IDE extension	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
Tác vụ văn phòng	Hạn chế	Sonnet: 1633 Elo
Kháng prompt injection	Tiêu chuẩn	Cấp độ Opus
Giá API	TBD	$3/$15 (Sonnet), $15/$75 (Opus)

Chọn GPT-5.3 Codex khi:

Các tác vụ lập trình tự động chạy dài (phiên làm việc nhiều giờ)
Quy trình làm việc nặng về terminal với các chuỗi công cụ phức tạp
Đã ở trong hệ sinh thái OpenAI/ChatGPT
Tự động hóa toàn bộ vòng đời phần mềm

Chọn Claude Code khi:

Sử dụng máy tính / tự động hóa trình duyệt (72.5% so với 64.7%)
Các tác vụ văn phòng song song với lập trình
An toàn agent là tối quan trọng (khả năng kháng prompt injection tốt hơn)
Cần dự đoán chi phí API ($3/$15 mức giá đã biết)

Khả năng tiếp cận

GPT-5.3 Codex có sẵn cho các gói ChatGPT trả phí (Plus, Pro, Team, Enterprise) thông qua:

Ứng dụng Codex (web) — giao diện agent tự động đầy đủ
Codex CLI — agent lập trình dựa trên terminal
Tiện ích mở rộng IDE — tích hợp vào trình soạn thảo của bạn
API — sẽ ra mắt trong vài tuần tới (giá cả TBD)

Hiện tại không có quyền truy cập cho tầng miễn phí.

Ý nghĩa đối với các lập trình viên

Cuộc đua AI Coding Agent là có thật

Ngày 5 tháng 2 năm 2026 đã chứng kiến cả OpenAI và Anthropic phát hành các mô hình lớn trong cùng một ngày — GPT-5.3 Codex và Claude Opus 4.6. Thông điệp rất rõ ràng: các agent lập trình tự động là chiến trường cạnh tranh chính.

Thế mạnh khác nhau, quy trình làm việc khác nhau

GPT-5.3 Codex xuất sắc trong việc lập trình tự động, dựa trên terminal qua các phiên làm việc dài. Claude xuất sắc trong việc sử dụng máy tính, tích hợp văn phòng và an toàn. Gemini 3.1 Pro dẫn đầu về suy luận và đa phương thức.

Đối với hầu hết các lập trình viên, sự lựa chọn phụ thuộc vào quy trình làm việc của bạn:

Làm việc nhiều với CLI/terminal → GPT-5.3 Codex

Tự động hóa trình duyệt + các tác vụ hỗn hợp → Claude Code

Công việc nặng về khoa học/suy luận → Gemini 3.1 Pro

Mô hình chỉ là bước khởi đầu

Xu hướng trên cả ba phòng thí nghiệm: chỉ riêng mô hình là không đủ. Bạn cần các công cụ triển khai, giám sát, phân tích và tăng trưởng xung quanh nó. Agent lập trình AI viết mã, nhưng để xuất xưởng một sản phẩm cần có toàn bộ stack.

Triển khai những gì bạn xây dựng. Y Build xử lý mọi thứ sau khi viết code: triển khai một lần nhấp, Demo Cut cho video sản phẩm, AI SEO và phân tích. Hoạt động với bất kỳ công cụ lập trình AI nào. Bắt đầu miễn phí.

Nguồn: