Gemini 3.1 Pro vs Sonnet 4.6 vs GPT-5.2: 2026

TL;DR

Gemini 3.1 Pro	Sonnet 4.6	GPT-5.2
Lập luận (ARC-AGI-2)	77.1%	58.3%	52.9%
Khoa học (GPQA)	94.3%	89.9%	92.4%
Lập trình (SWE-bench)	80.6%	79.6%	80.0%
Sử dụng máy tính (OSWorld)	N/A	72.5%	38.2%
Tác vụ văn phòng (Elo)	N/A	1633	1462
Ngữ cảnh	1M (native)	1M (beta)	400K
Giá đầu vào	$2/M	$3/M	$5/M
Giá đầu ra	$12/M	$15/M	$15/M

Quyết định nhanh:

Lập luận trừu tượng + khoa học + giá rẻ nhất → Gemini 3.1 Pro
Sử dụng máy tính + tác vụ văn phòng + an toàn tác nhân → Claude Sonnet 4.6
Toán học thuần túy + tốc độ → GPT-5.2

Tháng 2 năm 2026: Ba mô hình hàng đầu trong 13 ngày

Toàn cảnh các mô hình AI vừa có sự thay đổi lớn. Trong vòng chưa đầy hai tuần:

6 tháng 2: Claude Opus 4.6 (Anthropic)
17 tháng 2: Claude Sonnet 4.6 (Anthropic)
19 tháng 2: Gemini 3.1 Pro (Google)

Mỗi mô hình đều tuyên bố dẫn đầu trong các danh mục khác nhau. Không còn một mô hình duy nhất nào thống trị tất cả nữa. Hướng dẫn này sẽ phân tích chính xác vị thế chiến thắng của từng mô hình dựa trên dữ liệu benchmark thực tế.

Lập luận: Gemini 3.1 Pro chiếm ưu thế

ARC-AGI-2 (Giải quyết vấn đề mới lạ)

Đây là benchmark kiểm tra khả năng lập luận thuần túy — giải quyết các vấn đề mà mô hình chưa từng thấy trước đây, không có khuôn mẫu nào để ghi nhớ.

Mô hình	Điểm số
Gemini 3.1 Pro	77.1%
Claude Opus 4.6	68.8%
Claude Sonnet 4.6	58.3%
GPT-5.2	52.9%
Gemini 3 Pro	31.1%

Gemini 3.1 Pro dẫn trước Opus 4.6 tới 8.3 điểm và dẫn trước GPT-5.2 tới 24.2 điểm. Đây là khoảng cách rộng nhất trên bất kỳ benchmark hàng đầu nào hiện nay.

Sự cải thiện từ Gemini 3 Pro (31.1%) lên 3.1 Pro (77.1%) — tăng 148% — đến từ việc tích hợp các kỹ thuật lập luận Deep Think vào mô hình cơ sở.

GPQA Diamond (Khoa học cấp độ sau đại học)

Mô hình	Điểm số
Gemini 3.1 Pro	94.3%
GPT-5.2	92.4%
Claude Opus 4.6	91.3%
Claude Sonnet 4.6	89.9%

Gemini dẫn đầu về lập luận khoa học cấp độ chuyên gia — các câu hỏi về vật lý, hóa học, sinh học ở trình độ sau đại học.

Người chiến thắng: Gemini 3.1 Pro (dẫn đầu đáng kể về lập luận)

Lập trình: Thế trận cân bằng

SWE-bench Verified (Kỹ thuật phần mềm thực tế)

Mô hình	Điểm số
Claude Opus 4.6	80.8%
Gemini 3.1 Pro	80.6%
GPT-5.2	80.0%
Claude Sonnet 4.6	79.6%

Cả bốn mô hình đều nằm trong khoảng chênh lệch 1.2 điểm phần trăm. Đây thực tế là một kết quả hòa — lần đầu tiên Gemini có khả năng cạnh tranh với Claude về lập trình.

Terminal-Bench 2.0 (Lập trình tác nhân trên Terminal)

Mô hình	Điểm số
GPT-5.3-Codex	77.3%
Gemini 3.1 Pro	68.5%
Claude Opus 4.6	65.4%
Claude Sonnet 4.6	59.1%

Gemini 3.1 Pro thực sự đánh bại cả hai mô hình Claude trong lập trình tác nhân dựa trên terminal. Chỉ có mô hình chuyên dụng GPT-5.3-Codex (không phải bản GPT-5.2 tiêu chuẩn) mới vượt qua được nó.

Tích hợp công cụ dành cho nhà phát triển

Mô hình	Công cụ khả dụng
Gemini 3.1 Pro	Gemini CLI, GitHub Copilot, Android Studio, AI Studio
Claude Sonnet 4.6	Claude Code, Cursor, GitHub Copilot
GPT-5.2	GitHub Copilot, ChatGPT, Codex CLI

Cả ba mô hình đều có sẵn trên GitHub Copilot. Gemini có lợi thế độc nhất là tích hợp Android Studio cho các nhà phát triển di động.

Người chiến thắng: Hòa (Gemini đã thu hẹp khoảng cách, tất cả các mô hình đều có tính cạnh tranh cao)

Sử dụng máy tính: Lãnh địa riêng của Claude

OSWorld (AI điều khiển máy tính)

Mô hình	Điểm số
Claude Sonnet 4.6	72.5%
Claude Opus 4.6	72.7%
GPT-5.2	38.2%
Gemini 3.1 Pro	Chưa được đánh giá

Gemini 3.1 Pro không cung cấp khả năng sử dụng máy tính đa mục đích. Claude Sonnet 4.6 là mô hình duy nhất có thể điều khiển máy tính một cách đáng tin cậy — nhấp chuột, gõ phím, điều hướng ứng dụng, điền biểu mẫu — với độ chính xác sẵn sàng cho sản xuất.

Nếu quy trình làm việc của bạn liên quan đến tự động hóa trình duyệt, trích xuất dữ liệu từ các hệ thống cũ hoặc tự động điền biểu mẫu, Claude là lựa chọn thực tế duy nhất.

Người chiến thắng: Claude Sonnet 4.6 (không có đối thủ)

Khả năng tác nhân (Agentic)

Hiệu suất tác nhân đa công cụ

Benchmark	Gemini 3.1 Pro	Opus 4.6	GPT-5.2
APEX-Agents	33.5%	29.8%	23.0%
MCP Atlas (sử dụng công cụ)	69.2%	—	—
BrowseComp (tìm kiếm web)	85.9%	84.0%	—

Gemini 3.1 Pro dẫn đầu trong các benchmark về tác nhân — lập kế hoạch đa bước, sử dụng công cụ và tìm kiếm web mang tính tác nhân. Điểm APEX-Agents (33.5% so với 29.8% của Opus) cho thấy khả năng giải quyết vấn đề tự chủ tốt hơn trong các môi trường phức tạp.

An toàn cho tác nhân

Claude Sonnet 4.6 đặc biệt cải thiện khả năng chống tấn công prompt injection lên mức tương đương Opus, điều này rất quan trọng khi các tác nhân xử lý nội dung web không đáng tin cậy. Google chưa công bố các chỉ số an toàn tương đương cho Gemini 3.1 Pro trong bối cảnh tác nhân.

Người chiến thắng: Gemini 3.1 Pro (theo benchmark), Claude Sonnet 4.6 (về độ an toàn)

Đa phương thức: Lợi thế cốt lõi của Gemini

Những gì mỗi mô hình có thể xử lý

Loại đầu vào	Gemini 3.1 Pro	Sonnet 4.6	GPT-5.2
Văn bản	Có	Có	Có
Hình ảnh	Có	Có	Có
Âm thanh	Có (gốc)	Không	Có
Video	Có (gốc)	Không	Không
PDF	Có	Có	Có

Gemini 3.1 Pro xử lý trực tiếp lên đến 1 giờ video và 11 giờ âm thanh trong cửa sổ ngữ cảnh của nó. Cả Claude và GPT đều không thể xử lý video một cách trực tiếp.

Đối với các tác vụ liên quan đến phân tích video, chép lời âm thanh hoặc xử lý tài liệu đa định dạng, Gemini là lựa chọn duy nhất.

Người chiến thắng: Gemini 3.1 Pro (vượt trội)

Cửa sổ ngữ cảnh

Mô hình	Cửa sổ ngữ cảnh	Điểm ngữ cảnh dài (MRCR v2)
Gemini 3.1 Pro	1M (native)	84.9%
Claude Sonnet 4.6	1M (beta)	84.9% (hòa)
Claude Opus 4.6	1M (native)	76.0%
GPT-5.2	400K	—

Gemini và Claude Sonnet hòa nhau về hiệu suất ngữ cảnh dài ở mức 84.9% trên MRCR v2. Cả hai đều vượt xa giới hạn 400K của GPT-5.2.

Ngữ cảnh 1M của Gemini là bản chính thức (GA), trong khi của Claude đang ở bản thử nghiệm (beta). Đối với các khối lượng công việc sản xuất yêu cầu độ tin cậy ngữ cảnh dài được đảm bảo, Gemini có lợi thế hơn.

Người chiến thắng: Hòa (Gemini chính thức so với Claude beta)

Giá cả: Gemini rẻ nhất

So sánh chi phí API

Mô hình	Đầu vào (/triệu token)	Đầu ra (/triệu token)	Chi phí mỗi phiên*
Gemini 3.1 Pro	$2.00	$12.00	$0.44
Claude Sonnet 4.6	$3.00	$15.00	$0.60
GPT-5.2	$5.00	$15.00	$0.80
Claude Opus 4.6	$15.00	$75.00	$3.00

*Phiên = 100K token đầu vào + 20K token đầu ra

Gemini 3.1 Pro rẻ hơn 27% so với Sonnet 4.6 và rẻ hơn 45% so với GPT-5.2 trên mỗi phiên.

Ở quy mô lớn (100 phiên/ngày, 30 ngày)

Mô hình	Chi phí hàng tháng
Gemini 3.1 Pro	$1,320
Gemini 3.1 Pro (batch)	$660
Claude Sonnet 4.6	$1,800
GPT-5.2	$2,400
Claude Opus 4.6	$9,000

Với chế độ xử lý hàng loạt (batch mode), Gemini 3.1 Pro chỉ tốn $660/tháng cho 100 phiên hàng ngày — chưa bằng một nửa mức $1,800 của Sonnet 4.6.

Người chiến thắng: Gemini 3.1 Pro (mô hình hàng đầu rẻ nhất)

Tác vụ văn phòng và công việc tri thức

GDPval-AA Elo (Năng suất văn phòng thực tế)

Mô hình	Điểm số
Claude Sonnet 4.6	1633
Claude Opus 4.6	1606
GPT-5.2	1462
Gemini 3.1 Pro	Không công bố

Claude dẫn đầu về tự động hóa văn phòng — bảng tính, biểu mẫu, phân tích tài liệu. Google chưa công bố điểm số của Gemini 3.1 Pro trên benchmark này, cho thấy nó có thể không mạnh bằng ở mảng này.

Finance Agent v1.1

Mô hình	Điểm số
Claude Sonnet 4.6	63.3%
Claude Opus 4.6	60.1%
GPT-5.2	59.0%
Gemini 3.1 Pro	Không công bố

Người chiến thắng: Claude Sonnet 4.6 (cho các tác vụ văn phòng/tài chính)

Bạn nên sử dụng mô hình nào?

Chọn Gemini 3.1 Pro khi:

Lập luận trừu tượng — 77.1% ARC-AGI-2 là mức tốt nhất hiện có
Phân tích khoa học — 94.3% GPQA Diamond dẫn đầu tất cả các mô hình
Ngân sách là yếu tố quan trọng — Mức giá $2/$12 là rẻ nhất cho phân khúc hàng đầu
Xử lý đa phương thức — Phân tích video và âm thanh
Phát triển Android — Tích hợp Android Studio gốc
Ngữ cảnh lớn — 1M gốc với độ tin cậy đã được chứng minh

Chọn Claude Sonnet 4.6 khi:

Sử dụng máy tính — 72.5% OSWorld, không đối thủ nào theo kịp
Tự động hóa văn phòng — Bảng tính, biểu mẫu, phân tích dữ liệu (1633 Elo)
An toàn cho tác nhân — Khả năng chống prompt injection tốt nhất
Quy trình Claude Code — 70% được ưa chuộng hơn Sonnet 4.5
Phân tích tài chính — 63.3% Finance Agent dẫn đầu tất cả các mô hình
Tuân thủ chỉ dẫn — Ít ảo giác hơn, ít bị "over-engineering" hơn

Chọn GPT-5.2 khi:

Toán học thuần túy — 100% AIME 2025 là vô đối
Hệ sinh thái OpenAI — ChatGPT Plus, Assistants API, Codex
Phản hồi nhanh — Độ trễ thấp nhất cho các truy vấn đơn giản
Các tích hợp hiện có — Đã được xây dựng trên API của OpenAI

Chiến lược đa mô hình

Khoảng cách giữa các mô hình đang thu hẹp dần trên hầu hết các benchmark nhưng lại mở rộng ở các khả năng chuyên biệt. Cách tiếp cận tốt nhất hiện nay:

Tác vụ	Mô hình tốt nhất
Lập luận trừu tượng / Nghiên cứu	Gemini 3.1 Pro
Sử dụng máy tính / Tự động hóa trình duyệt	Claude Sonnet 4.6
Toán học phức tạp	GPT-5.2
Tác vụ văn phòng / Tài chính	Claude Sonnet 4.6
Phân tích video / âm thanh	Gemini 3.1 Pro
Lập trình chung	Bất kỳ (tất cả ≥79.6%)
Đội ngũ tác nhân nhạy cảm về chi phí	Gemini 3.1 Pro
Tái cấu trúc mã nguồn phức tạp	Claude Opus 4.6

Lời kết

Tháng 2 năm 2026 đã chấm dứt kỷ nguyên của "một mô hình cho tất cả". Gemini 3.1 Pro dẫn đầu về lập luận và giá cả. Claude Sonnet 4.6 dẫn đầu về sử dụng máy tính và tác vụ văn phòng. GPT-5.2 dẫn đầu về toán học. Mỗi mô hình đều có những ưu thế rõ rệt và vững chắc.

Đối với hầu hết các nhà phát triển đang xây dựng sản phẩm, câu trả lời thực tế là: chọn bất kỳ ai trong ba mô hình cho các tác vụ chung và chuyển sang chuyên gia khi tác vụ yêu cầu.

Lợi thế cạnh tranh thực sự không nằm ở việc bạn dùng mô hình nào — mà ở việc bạn triển khai sản phẩm nhanh đến mức nào.

Triển khai nhanh hơn. Y Build xử lý toàn bộ stack sau khi bạn viết code: triển khai một cú nhấp chuột, Demo Cut cho video sản phẩm, AI SEO cho lưu lượng truy cập tự nhiên và phân tích để theo dõi tăng trưởng. Hoạt động với mọi mô hình AI. Bắt đầu miễn phí.

Nguồn: