Đánh giá Grok 4.20: Mô hình Multi-Agent của xAI (2026)
Đánh giá Grok 4.20: kiến trúc 4-agent, ngữ cảnh 2M, điểm trung thực 78%, giá đầu vào $2/M. Điểm benchmark so với GPT-5.4 và Claude Opus 4.6.
TL;DR
| Grok 4.20 | GPT-5.4 | Claude Opus 4.6 | |
|---|---|---|---|
| Lập trình (SWE-bench Verified) | ~72% | 57.7% (Pro) | 80.8% |
| Khoa học (GPQA Diamond) | 83–88% | 92.8% | 91.3% |
| Lập luận (ARC-AGI-2) | 15.9% | — | 68.8% |
| Sự trung thực (Omniscience) | 78% | — | — |
| Sử dụng máy tính (OSWorld) | — | 75% | 72.5% |
| Cửa sổ ngữ cảnh | 2M | 400K | 1M |
| Giá đầu vào | $2/M | $2.50/M | $15/M |
| Giá đầu ra | $6/M | $15/M | $75/M |
| Kiến trúc | 4-agent MoE (~3T) | Dense (không tiết lộ) | Dense (không tiết lộ) |
- Mô hình frontier rẻ nhất với ngữ cảnh khổng lồ → Grok 4.20
- Lập trình tốt nhất + an toàn agent → Claude Opus 4.6
- Sử dụng máy tính + tự động hóa tốt nhất → GPT-5.4
- Tỷ lệ ảo giác thấp nhất → Grok 4.20
Grok 4.20 là gì?
Grok 4.20 là mô hình chủ lực của xAI, được ra mắt bản thử nghiệm công khai vào ngày 17 tháng 2 năm 2026 và chính thức phát hành rộng rãi vào tháng 3 năm 2026. Nó được xây dựng trên nền tảng Mixture-of-Experts (MoE) với khoảng 3 nghìn tỷ tham số — cùng quy mô với Grok 3 và Grok 4.1 — nhưng được bổ sung một kiến trúc multi-agent hoàn toàn mới lớp bên trên.
Tính năng nổi bật nhất: mọi truy vấn đủ phức tạp sẽ được điều hướng qua bốn agent AI chuyên biệt để tranh luận, kiểm chứng sự thật và xác minh chéo lẫn nhau trước khi đưa ra câu trả lời cuối cùng. Đây không phải là một framework mà bạn tự điều phối. Nó chạy gốc (natively) bên trong mô hình cho mỗi yêu cầu đủ điều kiện.
Kết quả là tỷ lệ ảo giác giảm 65% so với Grok 4.1, giảm từ khoảng 12% xuống còn 4.2%.
Kiến trúc 4-Agent hoạt động như thế nào?
Hệ thống multi-agent của Grok 4.20 bao gồm bốn agent chạy trên cùng một nền tảng MoE dùng chung:
| Agent | Vai trò | Chuyên môn |
|---|---|---|
| Grok (Captain) | Điều phối viên | Phân rã nhiệm vụ, giải quyết xung đột, tổng hợp cuối cùng |
| Harper | Nghiên cứu | Tìm kiếm web thời gian thực, truy xuất dữ liệu X Firehose, xác thực thực tế |
| Benjamin | Logic | Lập luận toán học, xác minh mã nguồn, tính nhất quán logic |
| Lucas | Sáng tạo | Tư duy phân kỳ, phát hiện thiên kiến, xác định các góc nhìn còn thiếu |
Quy trình nội bộ
- Phân rã. Grok/Captain phân tích prompt, chia nhỏ thành các nhiệm vụ con và điều hướng chúng đồng thời đến cả ba chuyên gia.
- Phân tích song song. Cả bốn agent nhận đầy đủ ngữ cảnh cùng với lăng kính chuyên môn của mình và tạo ra các phân tích ban đầu song song — không phải tuần tự.
- Tranh luận nội bộ. Các agent tham gia vào các vòng bình duyệt có cấu trúc. Harper đánh dấu các tuyên bố thực tế và xác thực chúng bằng dữ liệu thời gian thực. Benjamin kiểm tra tính nhất quán logic và các phép tính. Lucas phát hiện các thiên kiến và các giải pháp quá cứng nhắc.
- Tổng hợp. Grok/Captain giải quyết các bất đồng, hợp nhất các thông tin chi tiết và đưa ra kết quả cuối cùng.
Điểm chuẩn: Nơi Grok 4.20 thắng và thua
Sự trung thực: Dẫn đầu ngành
Grok 4.20 đã đạt được tỷ lệ không ảo giác 78% trong bài kiểm tra Artificial Analysis Omniscience — mức cao nhất trong số các mô hình được thử nghiệm. Khi không biết câu trả lời, nó sẽ nói "Tôi không biết" trong 78% trường hợp thay vì bịa đặt câu trả lời.
Đối với các ứng dụng thực tế nơi độ tin cậy quan trọng hơn trí thông minh thuần túy, đây là con số quan trọng nhất trong bảng.
Lập trình: Cạnh tranh nhưng không dẫn đầu
Trên SWE-bench Verified (kỹ thuật phần mềm thực tế), Grok 4.20 đạt khoảng 72–75% tùy thuộc vào scaffolding được sử dụng. Đó là con số ấn tượng nhưng vẫn đứng sau Claude Opus 4.6 với 80.8% và GPT-5.4 Pro với 57.7% trên biến thể SWE-bench Pro khó hơn.
Đối với các tác vụ lập trình hàng ngày, Grok 4.20 hoàn toàn đáp ứng tốt. Đối với việc tái cấu trúc (refactor) đa tệp phức tạp và gỡ lỗi cấp hệ thống, Claude vẫn dẫn đầu.
Khoa học và Lập luận: Nhóm giữa
Trên GPQA Diamond (khoa học cấp sau đại học), Grok 4.20 đạt 83–88%. GPT-5.4 dẫn đầu với 92.8%, tiếp theo là Opus 4.6 với 91.3%. Trên ARC-AGI-2 (lập luận trừu tượng mới lạ), Grok 4.20 đạt 15.9% — một sự cải thiện so với các phiên bản tiền nhiệm nhưng thua xa Opus 4.6 ở mức 68.8%.
Chỉ số trí thông minh: Sự đánh đổi
Artificial Analysis xếp hạng Grok 4.20 đứng thứ 8 trong Chỉ số Trí thông minh (Intelligence Index) với số điểm 48, sau Gemini 3.1 Pro và GPT-5.4 ở mức 57. xAI dường như đã tối ưu hóa cho độ tin cậy thay vì thống trị các điểm chuẩn thuần túy. Việc đánh đổi đó có xứng đáng hay không hoàn toàn phụ thuộc vào trường hợp sử dụng của bạn.
Giá cả: Mô hình Frontier giá rẻ?
Giá API tiêu chuẩn của Grok 4.20:
| Đầu vào | Đầu ra | |
|---|---|---|
| Grok 4.20 | $2.00/M tokens | $6.00/M tokens |
| Grok 4.20 Multi-Agent | $2.00/M tokens | $6.00/M tokens |
| GPT-5.4 | $2.50/M tokens | $15.00/M tokens |
| Claude Opus 4.6 | $15.00/M tokens | $75.00/M tokens |
| Claude Sonnet 4.6 | $3.00/M tokens | $15.00/M tokens |
Với mức giá $2/$6 trên mỗi triệu token, Grok 4.20 là mô hình frontier rẻ nhất hiện có. Nó rẻ hơn 7.5 lần so với Opus 4.6 ở đầu vào và 12.5 lần ở đầu ra. Ngay cả khi so sánh với GPT-5.4, nó vẫn rẻ hơn 20% ở đầu vào và 60% ở đầu ra.
Biến thể multi-agent được cung cấp với cùng mức giá, có nghĩa là hệ thống tranh luận 4-agent không tốn thêm chi phí.
Định danh mô hình API
grok-4.20 # Tiêu chuẩn (lập luận được bật mặc định)
grok-4.20-non-reasoning # Nhanh hơn, không có chain-of-thought
grok-4.20-multi-agent # Điều phối 4-agent rõ ràng
Base URL: https://api.x.ai/v1
Kiểm soát ngân sách lập luận
Grok 4.20 hỗ trợ tham số thinking_budget cho phép bạn kiểm soát độ sâu lập luận trên mỗi yêu cầu. Bạn chỉ trả tiền cho các token lập luận mà bạn sử dụng:
import openai
client = openai.OpenAI(
base_url="https://api.x.ai/v1",
api_key="YOUR_XAI_API_KEY"
)
response = client.chat.completions.create(
model="grok-4.20",
messages=[{"role": "user", "content": "Explain the multi-agent architecture of Grok 4.20"}],
extra_body={"thinking_budget": 4096}
)
Cửa sổ ngữ cảnh 2M Token: Tác động trong thế giới thực
Grok 4.20 ra mắt với cửa sổ ngữ cảnh 2 triệu token — lớn nhất trong số các mô hình frontier hiện nay. Để tham khảo:
| Mô hình | Cửa sổ ngữ cảnh |
|---|---|
| Grok 4.20 | 2,000,000 |
| Gemini 3.1 Pro | 1,000,000 |
| Claude Opus 4.6 | 1,000,000 |
| GPT-5.4 | 400,000 |
Điều này quan trọng đối với các trường hợp sử dụng liên quan đến cơ sở mã nguồn lớn, tài liệu pháp lý dài, phân tích đa tệp hoặc các phiên nghiên cứu kéo dài. Bạn có thể đưa khoảng 50.000 dòng mã vào trong một cửa sổ ngữ cảnh duy nhất.
Ai nên sử dụng Grok 4.20?
Tốt nhất cho
- Khối lượng công việc API lớn với ngân sách hạn chế. Với giá $2/$6, việc chạy hàng nghìn yêu cầu mỗi ngày rẻ hơn đáng kể so với các lựa chọn thay thế.
- Các ứng dụng yêu cầu tỷ lệ ảo giác thấp. Chatbot hỗ trợ khách hàng, thông tin y tế, nghiên cứu pháp lý — bất cứ nơi nào mà một câu trả lời sai đầy tự tin còn tệ hơn câu "Tôi không biết."
- Phân tích dữ liệu thời gian thực. Khả năng truy cập trực tiếp của Harper vào X và dữ liệu web giúp Grok 4.20 mạnh mẽ trong việc theo dõi tâm lý thị trường, giám sát tin tức và phân tích xu hướng.
- Các tác vụ ngữ cảnh dài. Cửa sổ ngữ cảnh 2M xử lý toàn bộ cơ sở mã hoặc bộ sưu tập tài liệu trong một lần chạy duy nhất.
Không lý tưởng cho
- Lập trình tiên tiến nhất (state-of-the-art). Claude Opus 4.6 vẫn dẫn đầu trên SWE-bench với khoảng cách đáng kể.
- Lập luận trừu tượng phức tạp. Khoảng cách ARC-AGI-2 (15.9% so với 68.8%) là rất lớn đối với các tác vụ đòi hỏi giải quyết vấn đề mới lạ.
- Sử dụng máy tính và tự động hóa GUI. GPT-5.4 dẫn đầu ở mức 75% trên OSWorld, vượt qua cả các chuyên gia là con người.
- Trí thông minh thuần túy tối đa. Nếu bạn cần điểm số cao nhất trên các bài kiểm tra khoa học và lập luận, GPT-5.4 hoặc Gemini 3.1 Pro vẫn đang ở phía trước.
Câu hỏi thường gặp
Grok 4.20 có bao nhiêu tham số?
Grok 4.20 được xây dựng trên kiến trúc Mixture-of-Experts với tổng cộng khoảng 3 nghìn tỷ tham số. Không phải tất cả các tham số đều hoạt động trong mỗi lần suy luận — thiết kế MoE điều hướng mỗi token đến một nhóm nhỏ các chuyên gia, giúp giữ chi phí tính toán ở mức có thể quản lý được mặc dù tổng số lượng tham số rất lớn.
Grok 4.20 có tốt hơn GPT-5.4 không?
Điều đó tùy thuộc vào nhu cầu của bạn. Grok 4.20 thắng về giá ($2/$6 so với $2.50/$15), cửa sổ ngữ cảnh (2M so với 400K) và sự trung thực (78% tỷ lệ không ảo giác). GPT-5.4 thắng về các bài kiểm tra khoa học (GPQA 92.8% so với 83–88%), sử dụng máy tính (OSWorld 75%) và các chỉ số trí thông minh thuần túy. Đối với việc triển khai thực tế chú trọng ngân sách và ưu tiên độ tin cậy, Grok 4.20 là một lựa chọn mạnh mẽ.
Grok 4.20 có tốt hơn Claude Opus 4.6 không?
Claude Opus 4.6 vượt trội đáng kể so với Grok 4.20 về lập trình (80.8% so với ~72% SWE-bench), lập luận trừu tượng (68.8% so với 15.9% ARC-AGI-2) và khoa học (91.3% so với 83–88% GPQA). Tuy nhiên, Grok 4.20 rẻ hơn rất nhiều ($2/$6 so với $15/$75) và có cửa sổ ngữ cảnh gấp đôi (2M so với 1M). Nếu bạn cần chất lượng cao nhất cho các tác vụ phức tạp, Opus thắng. Nếu bạn cần một mô hình frontier đủ năng lực với chi phí thấp hơn nhiều, Grok 4.20 rất hấp dẫn.
Hệ thống multi-agent là gì và tôi có phải trả thêm tiền không?
Hệ thống multi-agent điều hướng các truy vấn qua bốn agent chuyên biệt (Grok, Harper, Benjamin, Lucas) để tranh luận và xác minh chéo trước khi trả lời. Nó được tích hợp sẵn vào mô hình — bạn không phải trả thêm tiền. Biến thể tiêu chuẩn và multi-agent chia sẻ cùng một mức giá là $2/$6 trên mỗi triệu token.
Định danh mô hình API cho Grok 4.20 là gì?
ID mô hình chính là grok-4.20. Các biến thể bao gồm grok-4.20-non-reasoning cho phản hồi nhanh hơn mà không có chain-of-thought, và grok-4.20-multi-agent để điều phối multi-agent rõ ràng. Base URL của API là https://api.x.ai/v1.
Grok 4.20 được phát hành khi nào?
Grok 4.20 bắt đầu thử nghiệm công khai vào ngày 17 tháng 2 năm 2026, với bản cập nhật Beta 2 vào ngày 3 tháng 3 năm 2026 (phiên bản mô hình 0309). Việc phát hành rộng rãi diễn ra sau đó vào tháng 3 năm 2026.
Kết luận
Grok 4.20 không phải là mô hình thông minh nhất hiện nay — danh hiệu đó thuộc về GPT-5.4 và Claude Opus 4.6 tùy thuộc vào điểm chuẩn. Những gì nó mang lại là một sự kết hợp độc đáo: năng lực cấp frontier, sự trung thực dẫn đầu ngành, cửa sổ ngữ cảnh lớn nhất và mức giá thấp nhất trong số các mô hình hàng đầu. Kiến trúc 4-agent thực sự mới lạ và mang lại những cải tiến rõ rệt về độ chính xác thực tế.
Đối với các nhà phát triển đang xây dựng các ứng dụng thực tế nơi chi phí, độ tin cậy và độ dài ngữ cảnh quan trọng hơn việc đạt đến giới hạn tuyệt đối của các bài kiểm tra lập luận, Grok 4.20 xứng đáng được cân nhắc nghiêm túc.
Tại Y Build, chúng tôi tích hợp nhiều mô hình frontier — bao gồm Grok 4.20, Claude và GPT — để bạn có thể điều hướng từng tác vụ đến mô hình phù hợp nhất. Cho dù bạn cần sự trung thực tiết kiệm của Grok 4.20 cho các tính năng hướng tới khách hàng hay độ chính xác lập trình của Opus 4.6 cho quy trình phát triển, công cụ phù hợp sẽ phụ thuộc vào công việc của bạn.