Gemini 3.1 Pro vs Sonnet 4.6 vs GPT-5.2: 2026
Gemini 3.1 Pro vs Claude Sonnet 4.6 vs GPT-5.2 — bản so sánh chi tiết tháng 2 năm 2026. Đánh giá benchmark trực tiếp về lập luận, lập trình, sử dụng máy tính, giá cả và nên dùng mô hình AI nào cho việc gì.
TL;DR
| Gemini 3.1 Pro | Sonnet 4.6 | GPT-5.2 | |
|---|---|---|---|
| Lập luận (ARC-AGI-2) | 77.1% | 58.3% | 52.9% |
| Khoa học (GPQA) | 94.3% | 89.9% | 92.4% |
| Lập trình (SWE-bench) | 80.6% | 79.6% | 80.0% |
| Sử dụng máy tính (OSWorld) | N/A | 72.5% | 38.2% |
| Tác vụ văn phòng (Elo) | N/A | 1633 | 1462 |
| Ngữ cảnh | 1M (native) | 1M (beta) | 400K |
| Giá đầu vào | $2/M | $3/M | $5/M |
| Giá đầu ra | $12/M | $15/M | $15/M |
- Lập luận trừu tượng + khoa học + giá rẻ nhất → Gemini 3.1 Pro
- Sử dụng máy tính + tác vụ văn phòng + an toàn tác nhân → Claude Sonnet 4.6
- Toán học thuần túy + tốc độ → GPT-5.2
Tháng 2 năm 2026: Ba mô hình hàng đầu trong 13 ngày
Toàn cảnh các mô hình AI vừa có sự thay đổi lớn. Trong vòng chưa đầy hai tuần:
- 6 tháng 2: Claude Opus 4.6 (Anthropic)
- 17 tháng 2: Claude Sonnet 4.6 (Anthropic)
- 19 tháng 2: Gemini 3.1 Pro (Google)
Lập luận: Gemini 3.1 Pro chiếm ưu thế
ARC-AGI-2 (Giải quyết vấn đề mới lạ)
Đây là benchmark kiểm tra khả năng lập luận thuần túy — giải quyết các vấn đề mà mô hình chưa từng thấy trước đây, không có khuôn mẫu nào để ghi nhớ.
| Mô hình | Điểm số |
|---|---|
| Gemini 3.1 Pro | 77.1% |
| Claude Opus 4.6 | 68.8% |
| Claude Sonnet 4.6 | 58.3% |
| GPT-5.2 | 52.9% |
| Gemini 3 Pro | 31.1% |
Gemini 3.1 Pro dẫn trước Opus 4.6 tới 8.3 điểm và dẫn trước GPT-5.2 tới 24.2 điểm. Đây là khoảng cách rộng nhất trên bất kỳ benchmark hàng đầu nào hiện nay.
Sự cải thiện từ Gemini 3 Pro (31.1%) lên 3.1 Pro (77.1%) — tăng 148% — đến từ việc tích hợp các kỹ thuật lập luận Deep Think vào mô hình cơ sở.
GPQA Diamond (Khoa học cấp độ sau đại học)
| Mô hình | Điểm số |
|---|---|
| Gemini 3.1 Pro | 94.3% |
| GPT-5.2 | 92.4% |
| Claude Opus 4.6 | 91.3% |
| Claude Sonnet 4.6 | 89.9% |
Gemini dẫn đầu về lập luận khoa học cấp độ chuyên gia — các câu hỏi về vật lý, hóa học, sinh học ở trình độ sau đại học.
Người chiến thắng: Gemini 3.1 Pro (dẫn đầu đáng kể về lập luận)Lập trình: Thế trận cân bằng
SWE-bench Verified (Kỹ thuật phần mềm thực tế)
| Mô hình | Điểm số |
|---|---|
| Claude Opus 4.6 | 80.8% |
| Gemini 3.1 Pro | 80.6% |
| GPT-5.2 | 80.0% |
| Claude Sonnet 4.6 | 79.6% |
Cả bốn mô hình đều nằm trong khoảng chênh lệch 1.2 điểm phần trăm. Đây thực tế là một kết quả hòa — lần đầu tiên Gemini có khả năng cạnh tranh với Claude về lập trình.
Terminal-Bench 2.0 (Lập trình tác nhân trên Terminal)
| Mô hình | Điểm số |
|---|---|
| GPT-5.3-Codex | 77.3% |
| Gemini 3.1 Pro | 68.5% |
| Claude Opus 4.6 | 65.4% |
| Claude Sonnet 4.6 | 59.1% |
Gemini 3.1 Pro thực sự đánh bại cả hai mô hình Claude trong lập trình tác nhân dựa trên terminal. Chỉ có mô hình chuyên dụng GPT-5.3-Codex (không phải bản GPT-5.2 tiêu chuẩn) mới vượt qua được nó.
Tích hợp công cụ dành cho nhà phát triển
| Mô hình | Công cụ khả dụng |
|---|---|
| Gemini 3.1 Pro | Gemini CLI, GitHub Copilot, Android Studio, AI Studio |
| Claude Sonnet 4.6 | Claude Code, Cursor, GitHub Copilot |
| GPT-5.2 | GitHub Copilot, ChatGPT, Codex CLI |
Cả ba mô hình đều có sẵn trên GitHub Copilot. Gemini có lợi thế độc nhất là tích hợp Android Studio cho các nhà phát triển di động.
Người chiến thắng: Hòa (Gemini đã thu hẹp khoảng cách, tất cả các mô hình đều có tính cạnh tranh cao)Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Sử dụng máy tính: Lãnh địa riêng của Claude
OSWorld (AI điều khiển máy tính)
| Mô hình | Điểm số |
|---|---|
| Claude Sonnet 4.6 | 72.5% |
| Claude Opus 4.6 | 72.7% |
| GPT-5.2 | 38.2% |
| Gemini 3.1 Pro | Chưa được đánh giá |
Gemini 3.1 Pro không cung cấp khả năng sử dụng máy tính đa mục đích. Claude Sonnet 4.6 là mô hình duy nhất có thể điều khiển máy tính một cách đáng tin cậy — nhấp chuột, gõ phím, điều hướng ứng dụng, điền biểu mẫu — với độ chính xác sẵn sàng cho sản xuất.
Nếu quy trình làm việc của bạn liên quan đến tự động hóa trình duyệt, trích xuất dữ liệu từ các hệ thống cũ hoặc tự động điền biểu mẫu, Claude là lựa chọn thực tế duy nhất.
Người chiến thắng: Claude Sonnet 4.6 (không có đối thủ)Khả năng tác nhân (Agentic)
Hiệu suất tác nhân đa công cụ
| Benchmark | Gemini 3.1 Pro | Opus 4.6 | GPT-5.2 |
|---|---|---|---|
| APEX-Agents | 33.5% | 29.8% | 23.0% |
| MCP Atlas (sử dụng công cụ) | 69.2% | — | — |
| BrowseComp (tìm kiếm web) | 85.9% | 84.0% | — |
Gemini 3.1 Pro dẫn đầu trong các benchmark về tác nhân — lập kế hoạch đa bước, sử dụng công cụ và tìm kiếm web mang tính tác nhân. Điểm APEX-Agents (33.5% so với 29.8% của Opus) cho thấy khả năng giải quyết vấn đề tự chủ tốt hơn trong các môi trường phức tạp.
An toàn cho tác nhân
Claude Sonnet 4.6 đặc biệt cải thiện khả năng chống tấn công prompt injection lên mức tương đương Opus, điều này rất quan trọng khi các tác nhân xử lý nội dung web không đáng tin cậy. Google chưa công bố các chỉ số an toàn tương đương cho Gemini 3.1 Pro trong bối cảnh tác nhân.
Người chiến thắng: Gemini 3.1 Pro (theo benchmark), Claude Sonnet 4.6 (về độ an toàn)Đa phương thức: Lợi thế cốt lõi của Gemini
Những gì mỗi mô hình có thể xử lý
| Loại đầu vào | Gemini 3.1 Pro | Sonnet 4.6 | GPT-5.2 |
|---|---|---|---|
| Văn bản | Có | Có | Có |
| Hình ảnh | Có | Có | Có |
| Âm thanh | Có (gốc) | Không | Có |
| Video | Có (gốc) | Không | Không |
| Có | Có | Có |
Gemini 3.1 Pro xử lý trực tiếp lên đến 1 giờ video và 11 giờ âm thanh trong cửa sổ ngữ cảnh của nó. Cả Claude và GPT đều không thể xử lý video một cách trực tiếp.
Đối với các tác vụ liên quan đến phân tích video, chép lời âm thanh hoặc xử lý tài liệu đa định dạng, Gemini là lựa chọn duy nhất.
Người chiến thắng: Gemini 3.1 Pro (vượt trội)Cửa sổ ngữ cảnh
| Mô hình | Cửa sổ ngữ cảnh | Điểm ngữ cảnh dài (MRCR v2) |
|---|---|---|
| Gemini 3.1 Pro | 1M (native) | 84.9% |
| Claude Sonnet 4.6 | 1M (beta) | 84.9% (hòa) |
| Claude Opus 4.6 | 1M (native) | 76.0% |
| GPT-5.2 | 400K | — |
Gemini và Claude Sonnet hòa nhau về hiệu suất ngữ cảnh dài ở mức 84.9% trên MRCR v2. Cả hai đều vượt xa giới hạn 400K của GPT-5.2.
Ngữ cảnh 1M của Gemini là bản chính thức (GA), trong khi của Claude đang ở bản thử nghiệm (beta). Đối với các khối lượng công việc sản xuất yêu cầu độ tin cậy ngữ cảnh dài được đảm bảo, Gemini có lợi thế hơn.
Người chiến thắng: Hòa (Gemini chính thức so với Claude beta)Giá cả: Gemini rẻ nhất
So sánh chi phí API
| Mô hình | Đầu vào (/triệu token) | Đầu ra (/triệu token) | Chi phí mỗi phiên* |
|---|---|---|---|
| Gemini 3.1 Pro | $2.00 | $12.00 | $0.44 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.60 |
| GPT-5.2 | $5.00 | $15.00 | $0.80 |
| Claude Opus 4.6 | $15.00 | $75.00 | $3.00 |
*Phiên = 100K token đầu vào + 20K token đầu ra
Gemini 3.1 Pro rẻ hơn 27% so với Sonnet 4.6 và rẻ hơn 45% so với GPT-5.2 trên mỗi phiên.
Ở quy mô lớn (100 phiên/ngày, 30 ngày)
| Mô hình | Chi phí hàng tháng |
|---|---|
| Gemini 3.1 Pro | $1,320 |
| Gemini 3.1 Pro (batch) | $660 |
| Claude Sonnet 4.6 | $1,800 |
| GPT-5.2 | $2,400 |
| Claude Opus 4.6 | $9,000 |
Với chế độ xử lý hàng loạt (batch mode), Gemini 3.1 Pro chỉ tốn $660/tháng cho 100 phiên hàng ngày — chưa bằng một nửa mức $1,800 của Sonnet 4.6.
Người chiến thắng: Gemini 3.1 Pro (mô hình hàng đầu rẻ nhất)Tác vụ văn phòng và công việc tri thức
GDPval-AA Elo (Năng suất văn phòng thực tế)
| Mô hình | Điểm số |
|---|---|
| Claude Sonnet 4.6 | 1633 |
| Claude Opus 4.6 | 1606 |
| GPT-5.2 | 1462 |
| Gemini 3.1 Pro | Không công bố |
Claude dẫn đầu về tự động hóa văn phòng — bảng tính, biểu mẫu, phân tích tài liệu. Google chưa công bố điểm số của Gemini 3.1 Pro trên benchmark này, cho thấy nó có thể không mạnh bằng ở mảng này.
Finance Agent v1.1
| Mô hình | Điểm số |
|---|---|
| Claude Sonnet 4.6 | 63.3% |
| Claude Opus 4.6 | 60.1% |
| GPT-5.2 | 59.0% |
| Gemini 3.1 Pro | Không công bố |
Bạn nên sử dụng mô hình nào?
Chọn Gemini 3.1 Pro khi:
- Lập luận trừu tượng — 77.1% ARC-AGI-2 là mức tốt nhất hiện có
- Phân tích khoa học — 94.3% GPQA Diamond dẫn đầu tất cả các mô hình
- Ngân sách là yếu tố quan trọng — Mức giá $2/$12 là rẻ nhất cho phân khúc hàng đầu
- Xử lý đa phương thức — Phân tích video và âm thanh
- Phát triển Android — Tích hợp Android Studio gốc
- Ngữ cảnh lớn — 1M gốc với độ tin cậy đã được chứng minh
Chọn Claude Sonnet 4.6 khi:
- Sử dụng máy tính — 72.5% OSWorld, không đối thủ nào theo kịp
- Tự động hóa văn phòng — Bảng tính, biểu mẫu, phân tích dữ liệu (1633 Elo)
- An toàn cho tác nhân — Khả năng chống prompt injection tốt nhất
- Quy trình Claude Code — 70% được ưa chuộng hơn Sonnet 4.5
- Phân tích tài chính — 63.3% Finance Agent dẫn đầu tất cả các mô hình
- Tuân thủ chỉ dẫn — Ít ảo giác hơn, ít bị "over-engineering" hơn
Chọn GPT-5.2 khi:
- Toán học thuần túy — 100% AIME 2025 là vô đối
- Hệ sinh thái OpenAI — ChatGPT Plus, Assistants API, Codex
- Phản hồi nhanh — Độ trễ thấp nhất cho các truy vấn đơn giản
- Các tích hợp hiện có — Đã được xây dựng trên API của OpenAI
Chiến lược đa mô hình
Khoảng cách giữa các mô hình đang thu hẹp dần trên hầu hết các benchmark nhưng lại mở rộng ở các khả năng chuyên biệt. Cách tiếp cận tốt nhất hiện nay:
| Tác vụ | Mô hình tốt nhất |
|---|---|
| Lập luận trừu tượng / Nghiên cứu | Gemini 3.1 Pro |
| Sử dụng máy tính / Tự động hóa trình duyệt | Claude Sonnet 4.6 |
| Toán học phức tạp | GPT-5.2 |
| Tác vụ văn phòng / Tài chính | Claude Sonnet 4.6 |
| Phân tích video / âm thanh | Gemini 3.1 Pro |
| Lập trình chung | Bất kỳ (tất cả ≥79.6%) |
| Đội ngũ tác nhân nhạy cảm về chi phí | Gemini 3.1 Pro |
| Tái cấu trúc mã nguồn phức tạp | Claude Opus 4.6 |
Lời kết
Tháng 2 năm 2026 đã chấm dứt kỷ nguyên của "một mô hình cho tất cả". Gemini 3.1 Pro dẫn đầu về lập luận và giá cả. Claude Sonnet 4.6 dẫn đầu về sử dụng máy tính và tác vụ văn phòng. GPT-5.2 dẫn đầu về toán học. Mỗi mô hình đều có những ưu thế rõ rệt và vững chắc.
Đối với hầu hết các nhà phát triển đang xây dựng sản phẩm, câu trả lời thực tế là: chọn bất kỳ ai trong ba mô hình cho các tác vụ chung và chuyển sang chuyên gia khi tác vụ yêu cầu.
Lợi thế cạnh tranh thực sự không nằm ở việc bạn dùng mô hình nào — mà ở việc bạn triển khai sản phẩm nhanh đến mức nào.
Triển khai nhanh hơn. Y Build xử lý toàn bộ stack sau khi bạn viết code: triển khai một cú nhấp chuột, Demo Cut cho video sản phẩm, AI SEO cho lưu lượng truy cập tự nhiên và phân tích để theo dõi tăng trưởng. Hoạt động với mọi mô hình AI. Bắt đầu miễn phí.
Nguồn:
- Google Blog: Thông báo Gemini 3.1 Pro
- OfficeChai: Gemini 3.1 Pro đánh bại Claude Opus 4.6, GPT 5.2 trên hầu hết các benchmark
- VentureBeat: Ấn tượng đầu tiên về Gemini 3.1 Pro
- MarkTechPost: Gemini 3.1 Pro với 77.1% ARC-AGI-2
- 9to5Google: Gemini 3.1 Pro cho giải quyết vấn đề phức tạp
- Anthropic: Claude Sonnet 4.6
- GitHub Blog: Gemini 3.1 Pro trong GitHub Copilot
- Trending Topics: Gemini 3.1 Pro xếp sau Opus 4.6 trong một số tác vụ
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.