GPT-5.3 Codex: Agent lập trình tự động của OpenAI
OpenAI đã phát hành GPT-5.3 Codex vào ngày 5 tháng 2 năm 2026 — mô hình AI đầu tiên giúp tự xây dựng chính nó. 77.3% Terminal-Bench, 56.8% SWE-Bench Pro, các phiên lập trình tự động kéo dài nhiều giờ. Phân tích chi tiết các tính năng, điểm chuẩn và so sánh với Claude Code.
TL;DR
OpenAI đã phát hành GPT-5.3 Codex vào ngày 5 tháng 2 năm 2026 — cùng ngày Anthropic ra mắt Opus 4.6. Các số liệu thống kê chính:
- Terminal-Bench 2.0: 77.3% — dẫn đầu tất cả các mô hình về lập trình terminal dạng agent (agentic terminal coding)
- SWE-Bench Pro: 56.8% — điểm số cao nhất trên bốn ngôn ngữ lập trình
- OSWorld: 64.7% — khả năng sử dụng máy tính mạnh mẽ (nhưng đứng sau 72.5% của Sonnet 4.6)
- Nhanh hơn 25% so với GPT-5.2 Codex
- Tương tác trong khi làm việc — điều hướng agent ngay giữa tác vụ mà không làm mất ngữ cảnh
- Mô hình self-bootstrapping đầu tiên — GPT-5.3 Codex đã giúp debug chính quá trình huấn luyện của nó
- Có sẵn trên ứng dụng Codex, CLI và tiện ích mở rộng IDE cho các gói ChatGPT trả phí
- Giá API chưa được công bố
Những gì OpenAI đã công bố
GPT-5.3 Codex không chỉ là một mô hình lập trình tốt hơn. Đây là mô hình đầu tiên của OpenAI được thiết kế như một agent vòng đời phần mềm toàn diện (full software lifecycle agent) — từ debug, triển khai, giám sát, viết PRDs, chỉnh sửa nội dung, chạy thử nghiệm và hơn thế nữa.
Tính năng nổi bật nhất: các tác vụ chạy dài tự động (autonomous long-running tasks). Hãy giao cho GPT-5.3 Codex một nhiệm vụ phức tạp, và nó sẽ làm việc trong nhiều giờ — nghiên cứu, sử dụng công cụ, thực thi mã và điều chỉnh kế hoạch khi thực hiện. Bạn có thể điều hướng nó ngay giữa tác vụ mà không mất ngữ cảnh, giống như đang làm việc với một đồng nghiệp.
Tuyên bố gây tranh cãi nhất của OpenAI: GPT-5.3 Codex là "mô hình đầu tiên đóng vai trò quan trọng trong việc tạo ra chính nó." Đội ngũ Codex đã sử dụng các phiên bản sơ khai để debug pipeline huấn luyện, quản lý triển khai và chẩn đoán kết quả đánh giá.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Benchmarks
Nơi GPT-5.3 Codex dẫn đầu
| Benchmark | Kiểm tra điều gì | GPT-5.3 Codex | Đối thủ tốt nhất |
|---|---|---|---|
| Terminal-Bench 2.0 | Lập trình terminal dạng agent | 77.3% | Gemini 3.1 Pro: 68.5% |
| SWE-Bench Pro | Lập trình đa ngôn ngữ | 56.8% | Gemini 3.1 Pro: 54.2% |
| HumanEval | Tạo mã nguồn | 93% | — |
| GPQA | Suy luận khoa học | 81% | Gemini 3.1 Pro: 94.3% |
So sánh đầy đủ
| Benchmark | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 77.3% | 65.4% | 59.1% | 68.5% |
| SWE-Bench Pro | 56.8% | — | — | 54.2% |
| OSWorld | 64.7% | 72.7% | 72.5% | N/A |
| SWE-bench Verified | ~80% | 80.8% | 79.6% | 80.6% |
| ARC-AGI-2 | 52.9% | 68.8% | 58.3% | 77.1% |
Ý nghĩa của các con số
GPT-5.3 Codex thống trị về lập trình terminal dạng agent — kiểu công việc mà một agent AI cần điều hướng trong codebase, chạy lệnh, giải thích đầu ra, sửa lỗi và lặp lại. Điểm số 77.3% trên Terminal-Bench cao hơn gần 9 điểm so với đối thủ xếp sau (Gemini 3.1 Pro ở mức 68.5%) và cao hơn 12 điểm so với Opus 4.6 (65.4%).
Tuy nhiên, về khả năng sử dụng máy tính (OSWorld), nó tụt hậu đáng kể so với Claude — 64.7% so với 72.5% của Sonnet 4.6. Và về khả năng suy luận (ARC-AGI-2), nó đứng sau Gemini 3.1 Pro (77.1%) và Opus 4.6 (68.8%).
Các tính năng chính
1. Các phiên làm việc tự động kéo dài nhiều giờ
Các mô hình lập trình trước đây hoạt động theo từng đợt ngắn — bạn đưa prompt, nó phản hồi, bạn lại đưa prompt. GPT-5.3 Codex làm việc liên tục trên các tác vụ phức tạp, tự quản lý quy trình làm việc qua nhiều bước.
Ví dụ về quy trình: "Di chuyển hệ thống xác thực của chúng tôi từ JWT sang OAuth 2.0, cập nhật tất cả các endpoint bị ảnh hưởng, viết test và xác minh việc di chuyển hoạt động tốt." GPT-5.3 Codex sẽ nghiên cứu codebase, lập kế hoạch di chuyển, thực thi từng tệp, chạy test, sửa lỗi và báo cáo lại — có thể kéo dài trong nhiều giờ.
2. Điều hướng tương tác (Interactive Steering)
Bạn có thể chuyển hướng GPT-5.3 Codex trong khi nó đang làm việc mà không làm mất ngữ cảnh. Nếu bạn thấy nó đang đi sai hướng, hãy yêu cầu nó thay đổi. Cuộc hội thoại luôn được duy trì liên tục.
3. Toàn bộ vòng đời phần mềm
OpenAI định vị rõ ràng GPT-5.3 Codex vượt xa việc chỉ viết mã:
- Debugging — đọc nhật ký lỗi (error logs), truy vết nguyên nhân gốc rễ, áp dụng các bản sửa lỗi
- Deploying — quản lý các pipeline triển khai và cấu hình
- Monitoring — theo dõi các vấn đề trong các hệ thống đang chạy
- PRDs và tài liệu — viết yêu cầu sản phẩm và tài liệu hướng dẫn
- Nghiên cứu người dùng — tổng hợp phản hồi và kết quả thử nghiệm
- Testing — tạo và chạy các bộ test (test suites)
- Metrics — phân tích dữ liệu hiệu suất
4. Self-Bootstrapping
GPT-5.3 Codex đã sử dụng các phiên bản sơ khai của chính nó trong quá trình phát triển để:
- Debug các vấn đề trong pipeline huấn luyện
- Quản lý việc triển khai mô hình
- Chẩn đoán kết quả đánh giá
- Lặp lại quá trình phát triển trò chơi một cách tự động qua hàng triệu token
Đây là lần đầu tiên một mô hình AI được mô tả công khai là đã đóng góp vào việc tạo ra chính nó.
GPT-5.3 Codex vs. Claude Code
| Khả năng | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| Terminal coding | 77.3% | Opus: 65.4%, Sonnet: 59.1% |
| Computer use | 64.7% | Sonnet: 72.5%, Opus: 72.7% |
| SWE-bench | ~80% | Opus: 80.8%, Sonnet: 79.6% |
| Tự động nhiều giờ | Có | Hạn chế |
| Điều hướng tương tác | Có | Có |
| Tích hợp IDE | Codex IDE extension | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| Tác vụ văn phòng | Hạn chế | Sonnet: 1633 Elo |
| Kháng prompt injection | Tiêu chuẩn | Cấp độ Opus |
| Giá API | TBD | $3/$15 (Sonnet), $15/$75 (Opus) |
- Các tác vụ lập trình tự động chạy dài (phiên làm việc nhiều giờ)
- Quy trình làm việc nặng về terminal với các chuỗi công cụ phức tạp
- Đã ở trong hệ sinh thái OpenAI/ChatGPT
- Tự động hóa toàn bộ vòng đời phần mềm
- Sử dụng máy tính / tự động hóa trình duyệt (72.5% so với 64.7%)
- Các tác vụ văn phòng song song với lập trình
- An toàn agent là tối quan trọng (khả năng kháng prompt injection tốt hơn)
- Cần dự đoán chi phí API ($3/$15 mức giá đã biết)
Khả năng tiếp cận
GPT-5.3 Codex có sẵn cho các gói ChatGPT trả phí (Plus, Pro, Team, Enterprise) thông qua:
- Ứng dụng Codex (web) — giao diện agent tự động đầy đủ
- Codex CLI — agent lập trình dựa trên terminal
- Tiện ích mở rộng IDE — tích hợp vào trình soạn thảo của bạn
- API — sẽ ra mắt trong vài tuần tới (giá cả TBD)
Ý nghĩa đối với các lập trình viên
Cuộc đua AI Coding Agent là có thật
Ngày 5 tháng 2 năm 2026 đã chứng kiến cả OpenAI và Anthropic phát hành các mô hình lớn trong cùng một ngày — GPT-5.3 Codex và Claude Opus 4.6. Thông điệp rất rõ ràng: các agent lập trình tự động là chiến trường cạnh tranh chính.
Thế mạnh khác nhau, quy trình làm việc khác nhau
GPT-5.3 Codex xuất sắc trong việc lập trình tự động, dựa trên terminal qua các phiên làm việc dài. Claude xuất sắc trong việc sử dụng máy tính, tích hợp văn phòng và an toàn. Gemini 3.1 Pro dẫn đầu về suy luận và đa phương thức.
Đối với hầu hết các lập trình viên, sự lựa chọn phụ thuộc vào quy trình làm việc của bạn:
- Làm việc nhiều với CLI/terminal → GPT-5.3 Codex
- Tự động hóa trình duyệt + các tác vụ hỗn hợp → Claude Code
- Công việc nặng về khoa học/suy luận → Gemini 3.1 Pro
Mô hình chỉ là bước khởi đầu
Xu hướng trên cả ba phòng thí nghiệm: chỉ riêng mô hình là không đủ. Bạn cần các công cụ triển khai, giám sát, phân tích và tăng trưởng xung quanh nó. Agent lập trình AI viết mã, nhưng để xuất xưởng một sản phẩm cần có toàn bộ stack.
Triển khai những gì bạn xây dựng. Y Build xử lý mọi thứ sau khi viết code: triển khai một lần nhấp, Demo Cut cho video sản phẩm, AI SEO và phân tích. Hoạt động với bất kỳ công cụ lập trình AI nào. Bắt đầu miễn phí.
Nguồn:
- OpenAI: Giới thiệu GPT-5.3-Codex
- OpenAI: Thẻ hệ thống GPT-5.3-Codex
- Fortune: OpenAI GPT-5.3 Codex gây ra các rủi ro an ninh mạng
- MarkTechPost: Mô hình lập trình agent GPT-5.3-Codex
- DataCamp: GPT-5.3 Codex từ lập trình đến agent công việc tổng quát
- OfficeChai: Benchmarks Gemini 3.1 Pro (so sánh với GPT-5.3)
- LLM Stats: Giá cả và benchmark GPT-5.3 Codex
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.