Gemini 3.1 Pro: Giải mã bước nhảy vọt về khả năng suy luận của Google
Google đã phát hành Gemini 3.1 Pro vào ngày 19 tháng 2 năm 2026 — đạt 77,1% trên ARC-AGI-2, cao hơn gấp đôi so với Gemini 3 Pro. Chi tiết bảng điểm benchmark, giá cả ($2/$12 mỗi triệu token), tính sẵn có và ý nghĩa đối với các nhà phát triển.
TL;DR
Google đã phát hành Gemini 3.1 Pro (bản xem trước) vào ngày 19 tháng 2 năm 2026. Các con số chính:
- ARC-AGI-2: 77,1% — cao hơn gấp đôi Gemini 3 Pro (31,1%), đánh bại Opus 4.6 (68,8%) và GPT-5.2 (52,9%)
- GPQA Diamond: 94,3% — dẫn đầu tất cả các mô hình về khoa học cấp độ sau đại học
- SWE-bench: 80,6% — ngang ngửa với Opus 4.6 (80,8%) về lập trình
- Giá: $2/$12 mỗi triệu token — mô hình tiên phong rẻ nhất
- Ngữ cảnh 1 triệu token — không thay đổi so với Gemini 3 Pro
- Dẫn đầu trên 13 trong số 16 bài kiểm tra benchmark được Google đánh giá
- Đã có bản xem trước: AI Studio, Vertex AI, Gemini CLI, ứng dụng Gemini
Google đã công bố những gì
Vào ngày 19 tháng 2 năm 2026, Google đã phát hành Gemini 3.1 Pro — bản cập nhật ".1" đầu tiên trong hệ thống phiên bản mô hình của họ. Nó được xây dựng dựa trên Gemini 3 Pro (tháng 11 năm 2025) bằng cách tích hợp các kỹ thuật từ dòng Gemini 3 Deep Think vào một mô hình dễ tiếp cận và nhanh hơn.
Blog của Google mô tả mô hình này được thiết kế cho "các tác vụ mà một câu trả lời đơn giản là không đủ" — suy luận đa bước phức tạp, tổng hợp dữ liệu và các quy trình làm việc dựa trên agent.
Số liệu thống kê nổi bật: 77,1% trên ARC-AGI-2, bài kiểm tra chuẩn cho khả năng suy luận trừu tượng mới lạ. Con số này cao hơn gấp đôi so với 31,1% của Gemini 3 Pro và vượt xa cả Opus 4.6 (68,8%) lẫn GPT-5.2 (52,9%). VentureBeat gọi đây là "một phiên bản Deep Think Mini với khả năng điều chỉnh suy luận theo yêu cầu."
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Chi tiết bảng điểm Benchmark
Nơi Gemini 3.1 Pro dẫn đầu (13 trên 16 benchmark)
| Benchmark | Nội dung kiểm tra | Gemini 3.1 Pro | Đối thủ tốt nhất |
|---|---|---|---|
| ARC-AGI-2 | Suy luận mới lạ | 77,1% | Opus 4.6: 68,8% |
| GPQA Diamond | Khoa học sau đại học | 94,3% | GPT-5.2: 92,4% |
| BrowseComp | Tìm kiếm web dựa trên agent | 85,9% | Opus 4.6: 84,0% |
| Terminal-Bench 2.0 | Lập trình Terminal | 68,5% | Opus 4.6: 65,4% |
| APEX-Agents | Khả năng của agent | 33,5% | Opus 4.6: 29,8% |
| MCP Atlas | Sử dụng công cụ | 69,2% | — |
| t2-bench Telecom | Đặc thù lĩnh vực | 99,3% | — |
| SWE-bench Verified | Lập trình | 80,6% | Opus 4.6: 80,8% |
| MRCR v2 | Ngữ cảnh dài | 84,9% | Sonnet 4.6: 84,9% (hòa) |
Nơi các đối thủ vẫn đang thắng
| Benchmark | Nội dung kiểm tra | Người chiến thắng | Gemini 3.1 Pro |
|---|---|---|---|
| GDPval-AA (Elo) | Tác vụ văn phòng | Sonnet 4.6: 1633 | Không tiết lộ |
| Terminal-Bench 2.0 | Lập trình terminal phức tạp | GPT-5.3-Codex: 77,3% | 68,5% |
| SWE-Bench Pro | Lập trình nâng cao | GPT-5.3-Codex: 56,8% | Không tiết lộ |
| OSWorld | Sử dụng máy tính | Sonnet 4.6: 72,5% | Chưa kiểm tra |
Bước nhảy vọt về suy luận trong thực tế
ARC-AGI-2 đo lường khả năng của mô hình trong việc giải quyết các vấn đề mà nó chưa từng thấy trước đây — suy luận trừu tượng thuần túy, không phải là khớp mẫu từ dữ liệu đào tạo. Đây là tốc độ cải thiện của Gemini:
| Mô hình | ARC-AGI-2 | Ngày |
|---|---|---|
| Gemini 3 Pro | 31,1% | Th11 2025 |
| GPT-5.2 | 52,9% | Th12 2025 |
| Claude Opus 4.6 | 68,8% | Th2 2026 |
| Gemini 3.1 Pro | 77,1% | Th2 2026 |
Gemini 3.1 Pro đã nhảy vọt từ 31,1% lên 77,1% chỉ trong một phiên bản — một sự cải thiện 148%. Điều này có được nhờ việc tích hợp các kỹ thuật suy luận mở rộng của Deep Think vào mô hình cơ sở.
Những thay đổi so với Gemini 3 Pro
1. Tích hợp Deep Think
Gemini 3 Deep Think là một mô hình riêng biệt, chậm hơn, được tối ưu hóa cho suy luận mở rộng. Gemini 3.1 Pro đưa những kỹ thuật đó trực tiếp vào mô hình tiêu chuẩn, với độ sâu suy luận có thể điều chỉnh. Bạn nhận được khả năng suy luận cấp độ Deep Think mà không bị độ trễ của Deep Think đối với hầu hết các tác vụ.
2. Khả năng suy luận tốt hơn đáng kể
Các con số đã tự nói lên tất cả:
| Benchmark | Gemini 3 Pro | Gemini 3.1 Pro | Cải thiện |
|---|---|---|---|
| ARC-AGI-2 | 31,1% | 77,1% | +148% |
| GPQA Diamond | ~88% | 94,3% | +7% |
| APEX-Agents | 18,4% | 33,5% | +82% |
3. Hiệu suất Agent tốt hơn
Điểm số APEX-Agents (33,5%) và MCP Atlas (69,2%) cho thấy Gemini 3.1 Pro có khả năng hoạt động như một agent tự trị tốt hơn đáng kể — việc sử dụng công cụ, lập kế hoạch đa bước và tự sửa lỗi đều được cải thiện.
4. Duy trì sức mạnh đa phương thức
Gemini 3.1 Pro vẫn giữ được lợi thế cốt lõi của Gemini: xử lý đa phương thức (multimodal) bản địa cho văn bản, hình ảnh, âm thanh và video trong một ngữ cảnh duy nhất. Không có mô hình tiên phong nào khác đạt được phạm vi này ở mức giá này.
Giá cả
Cùng mức giá với Gemini 3 Pro — một bản nâng cấp miễn phí:
| Kích thước ngữ cảnh | Đầu vào (mỗi triệu token) | Đầu ra (mỗi triệu token) |
|---|---|---|
| ≤200K token | $2,00 | $12,00 |
| >200K token | $4,00 | $18,00 |
So sánh với các đối thủ
| Mô hình | Đầu vào | Đầu ra | Chi phí tương đối |
|---|---|---|---|
| Gemini 3.1 Pro | $2,00 | $12,00 | 1x |
| Claude Sonnet 4.6 | $3,00 | $15,00 | 1,5x |
| GPT-5.2 | $5,00 | $15,00 | 2,0x (đầu vào) |
| Claude Opus 4.6 | $15,00 | $75,00 | 7,5x |
Gemini 3.1 Pro là mô hình tiên phong rẻ nhất — rẻ hơn 33% so với Sonnet 4.6 về đầu vào và rẻ hơn 20% về đầu ra.
Chi phí mỗi phiên (100K vào + 20K ra)
| Mô hình | Chi phí |
|---|---|
| Gemini 3.1 Pro | $0,44 |
| Claude Sonnet 4.6 | $0,60 |
| GPT-5.2 | $0,80 |
| Claude Opus 4.6 | $3,00 |
Tối ưu hóa chi phí bổ sung:
- Chế độ Batch: Giảm giá 50% ($0,22/phiên)
- Context caching: Các lượt đọc đầu vào được lưu đệm có chi phí bằng 10% giá cơ bản
Tính sẵn có
Nơi sử dụng
| Nền tảng | Trạng thái | Model ID |
|---|---|---|
| Ứng dụng Gemini (người dùng) | Đang triển khai | Tự động chọn |
| Google AI Studio | Đã có sẵn | gemini-3.1-pro-preview |
| Vertex AI | Đã có sẵn | gemini-3.1-pro-preview |
| Gemini API | Đã có sẵn | gemini-3.1-pro-preview |
| Gemini CLI | Đã có sẵn | gemini-3.1-pro-preview |
| Antigravity | Đã có sẵn | Tự động chọn |
| Android Studio | Đã có sẵn | Tự động chọn |
| GitHub Copilot | Bản xem trước công khai | Có thể chọn |
| NotebookLM | Thuê bao Pro/Ultra | Tự động chọn |
API Quick Start
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")
response = model.generate_content("Your prompt here")
print(response.text)
Endpoint công cụ tùy chỉnh
Google cũng đã ra mắt một endpoint chuyên dụng để cải thiện hiệu suất công cụ:
model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")
Sử dụng endpoint này khi xây dựng các agent phụ thuộc nhiều vào việc gọi hàm (function calling) và sử dụng công cụ.
Ý nghĩa của việc này
Cuộc đua suy luận đang nóng dần lên
Ba mô hình tiên phong đã được phát hành trong vòng 13 ngày:
- 6 tháng 2: Claude Opus 4.6 (Anthropic)
- 17 tháng 2: Claude Sonnet 4.6 (Anthropic)
- 19 tháng 2: Gemini 3.1 Pro (Google)
Mỗi mô hình đều tuyên bố dẫn đầu trong các lĩnh vực khác nhau. Cảnh quan mô hình đang phân mảnh — không còn một mô hình duy nhất nào thống trị tất cả mọi thứ nữa.
Khả năng suy luận tốt nhất phân khúc với mức giá tiết kiệm
Điểm số 77,1% trên ARC-AGI-2 của Gemini 3.1 Pro là điểm suy luận cao nhất hiện có, với mức giá thấp nhất ($2/$12). Đối với các tác vụ yêu cầu giải quyết vấn đề mới lạ, suy luận trừu tượng hoặc phân tích khoa học, đây là lựa chọn rõ ràng.
Sự tương đồng về khả năng lập trình
Với 80,6% trên SWE-bench (so với 80,8% của Opus 4.6 và 79,6% của Sonnet 4.6), Gemini 3.1 Pro lần đầu tiên có khả năng cạnh tranh về lập trình. Các mô hình Gemini trước đây thường tụt hậu đáng kể so với Claude trên benchmark này.
Mảnh ghép còn thiếu: Sử dụng máy tính
Gemini 3.1 Pro không có điểm benchmark trên OSWorld (sử dụng máy tính). Claude Sonnet 4.6 dẫn đầu với 72,5% ở khả năng này. Nếu quy trình làm việc của bạn liên quan đến tự động hóa trình duyệt, điền biểu mẫu hoặc điều khiển máy tính để bàn, Claude vẫn là lựa chọn khả thi duy nhất.
Đối với các nhà phát triển xây dựng sản phẩm
Những tác động thực tế:
- Suy luận rẻ nhất: $0,44/phiên so với $0,60 (Sonnet) so với $0,80 (GPT-5.2)
- Tốt nhất cho các tác vụ khoa học/phân tích: 94,3% GPQA Diamond là điểm số cao nhất hiện nay
- Cạnh tranh về lập trình: 80,6% SWE-bench thu hẹp khoảng cách với Claude
- Lợi thế đa phương thức: Xử lý video/âm thanh bản địa mà Claude và GPT không sánh kịp
- Trạng thái xem trước: Chưa phải là bản chính thức (GA) — dự kiến sẽ có những cải thiện trước khi phát hành rộng rãi
Bạn đang xây dựng với AI? Y Build tích hợp với các công cụ AI ưa thích của bạn để phát triển, sau đó xử lý việc triển khai, video sản phẩm Demo Cut, AI SEO và phân tích — toàn bộ quy trình từ code đến tăng trưởng. Bắt đầu miễn phí.
Nguồn:
- Google Blog: Gemini 3.1 Pro announcement
- Google DeepMind: Gemini 3.1 Pro Model Card
- 9to5Google: Gemini 3.1 Pro for complex problem-solving
- VentureBeat: Gemini 3.1 Pro first impressions
- MarkTechPost: Gemini 3.1 Pro 77.1% ARC-AGI-2
- OfficeChai: Gemini 3.1 Pro Benchmarks
- GitHub Blog: Gemini 3.1 Pro in GitHub Copilot
- The Decoder: Gemini 3.1 Pro reasoning
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.