Gemini 3.1 Pro: Giải mã bước nhảy vọt về khả năng suy luận của Google

TL;DR

Google đã phát hành Gemini 3.1 Pro (bản xem trước) vào ngày 19 tháng 2 năm 2026. Các con số chính:

ARC-AGI-2: 77,1% — cao hơn gấp đôi Gemini 3 Pro (31,1%), đánh bại Opus 4.6 (68,8%) và GPT-5.2 (52,9%)
GPQA Diamond: 94,3% — dẫn đầu tất cả các mô hình về khoa học cấp độ sau đại học
SWE-bench: 80,6% — ngang ngửa với Opus 4.6 (80,8%) về lập trình
Giá: $2/$12 mỗi triệu token — mô hình tiên phong rẻ nhất
Ngữ cảnh 1 triệu token — không thay đổi so với Gemini 3 Pro
Dẫn đầu trên 13 trong số 16 bài kiểm tra benchmark được Google đánh giá
Đã có bản xem trước: AI Studio, Vertex AI, Gemini CLI, ứng dụng Gemini

Google đã công bố những gì

Vào ngày 19 tháng 2 năm 2026, Google đã phát hành Gemini 3.1 Pro — bản cập nhật ".1" đầu tiên trong hệ thống phiên bản mô hình của họ. Nó được xây dựng dựa trên Gemini 3 Pro (tháng 11 năm 2025) bằng cách tích hợp các kỹ thuật từ dòng Gemini 3 Deep Think vào một mô hình dễ tiếp cận và nhanh hơn.

Blog của Google mô tả mô hình này được thiết kế cho "các tác vụ mà một câu trả lời đơn giản là không đủ" — suy luận đa bước phức tạp, tổng hợp dữ liệu và các quy trình làm việc dựa trên agent.

Số liệu thống kê nổi bật: 77,1% trên ARC-AGI-2, bài kiểm tra chuẩn cho khả năng suy luận trừu tượng mới lạ. Con số này cao hơn gấp đôi so với 31,1% của Gemini 3 Pro và vượt xa cả Opus 4.6 (68,8%) lẫn GPT-5.2 (52,9%). VentureBeat gọi đây là "một phiên bản Deep Think Mini với khả năng điều chỉnh suy luận theo yêu cầu."

Chi tiết bảng điểm Benchmark

Nơi Gemini 3.1 Pro dẫn đầu (13 trên 16 benchmark)

Benchmark	Nội dung kiểm tra	Gemini 3.1 Pro	Đối thủ tốt nhất
ARC-AGI-2	Suy luận mới lạ	77,1%	Opus 4.6: 68,8%
GPQA Diamond	Khoa học sau đại học	94,3%	GPT-5.2: 92,4%
BrowseComp	Tìm kiếm web dựa trên agent	85,9%	Opus 4.6: 84,0%
Terminal-Bench 2.0	Lập trình Terminal	68,5%	Opus 4.6: 65,4%
APEX-Agents	Khả năng của agent	33,5%	Opus 4.6: 29,8%
MCP Atlas	Sử dụng công cụ	69,2%	—
t2-bench Telecom	Đặc thù lĩnh vực	99,3%	—
SWE-bench Verified	Lập trình	80,6%	Opus 4.6: 80,8%
MRCR v2	Ngữ cảnh dài	84,9%	Sonnet 4.6: 84,9% (hòa)

Nơi các đối thủ vẫn đang thắng

Benchmark	Nội dung kiểm tra	Người chiến thắng	Gemini 3.1 Pro
GDPval-AA (Elo)	Tác vụ văn phòng	Sonnet 4.6: 1633	Không tiết lộ
Terminal-Bench 2.0	Lập trình terminal phức tạp	GPT-5.3-Codex: 77,3%	68,5%
SWE-Bench Pro	Lập trình nâng cao	GPT-5.3-Codex: 56,8%	Không tiết lộ
OSWorld	Sử dụng máy tính	Sonnet 4.6: 72,5%	Chưa kiểm tra

Bước nhảy vọt về suy luận trong thực tế

ARC-AGI-2 đo lường khả năng của mô hình trong việc giải quyết các vấn đề mà nó chưa từng thấy trước đây — suy luận trừu tượng thuần túy, không phải là khớp mẫu từ dữ liệu đào tạo. Đây là tốc độ cải thiện của Gemini:

Mô hình	ARC-AGI-2	Ngày
Gemini 3 Pro	31,1%	Th11 2025
GPT-5.2	52,9%	Th12 2025
Claude Opus 4.6	68,8%	Th2 2026
Gemini 3.1 Pro	77,1%	Th2 2026

Gemini 3.1 Pro đã nhảy vọt từ 31,1% lên 77,1% chỉ trong một phiên bản — một sự cải thiện 148%. Điều này có được nhờ việc tích hợp các kỹ thuật suy luận mở rộng của Deep Think vào mô hình cơ sở.

Những thay đổi so với Gemini 3 Pro

1. Tích hợp Deep Think

Gemini 3 Deep Think là một mô hình riêng biệt, chậm hơn, được tối ưu hóa cho suy luận mở rộng. Gemini 3.1 Pro đưa những kỹ thuật đó trực tiếp vào mô hình tiêu chuẩn, với độ sâu suy luận có thể điều chỉnh. Bạn nhận được khả năng suy luận cấp độ Deep Think mà không bị độ trễ của Deep Think đối với hầu hết các tác vụ.

2. Khả năng suy luận tốt hơn đáng kể

Các con số đã tự nói lên tất cả:

Benchmark	Gemini 3 Pro	Gemini 3.1 Pro	Cải thiện
ARC-AGI-2	31,1%	77,1%	+148%
GPQA Diamond	~88%	94,3%	+7%
APEX-Agents	18,4%	33,5%	+82%

3. Hiệu suất Agent tốt hơn

Điểm số APEX-Agents (33,5%) và MCP Atlas (69,2%) cho thấy Gemini 3.1 Pro có khả năng hoạt động như một agent tự trị tốt hơn đáng kể — việc sử dụng công cụ, lập kế hoạch đa bước và tự sửa lỗi đều được cải thiện.

4. Duy trì sức mạnh đa phương thức

Gemini 3.1 Pro vẫn giữ được lợi thế cốt lõi của Gemini: xử lý đa phương thức (multimodal) bản địa cho văn bản, hình ảnh, âm thanh và video trong một ngữ cảnh duy nhất. Không có mô hình tiên phong nào khác đạt được phạm vi này ở mức giá này.

Giá cả

Cùng mức giá với Gemini 3 Pro — một bản nâng cấp miễn phí:

Kích thước ngữ cảnh	Đầu vào (mỗi triệu token)	Đầu ra (mỗi triệu token)
≤200K token	$2,00	$12,00
>200K token	$4,00	$18,00

So sánh với các đối thủ

Mô hình	Đầu vào	Đầu ra	Chi phí tương đối
Gemini 3.1 Pro	$2,00	$12,00	1x
Claude Sonnet 4.6	$3,00	$15,00	1,5x
GPT-5.2	$5,00	$15,00	2,0x (đầu vào)
Claude Opus 4.6	$15,00	$75,00	7,5x

Gemini 3.1 Pro là mô hình tiên phong rẻ nhất — rẻ hơn 33% so với Sonnet 4.6 về đầu vào và rẻ hơn 20% về đầu ra.

Chi phí mỗi phiên (100K vào + 20K ra)

Mô hình	Chi phí
Gemini 3.1 Pro	$0,44
Claude Sonnet 4.6	$0,60
GPT-5.2	$0,80
Claude Opus 4.6	$3,00

Tối ưu hóa chi phí bổ sung:

Chế độ Batch: Giảm giá 50% ($0,22/phiên)

Context caching: Các lượt đọc đầu vào được lưu đệm có chi phí bằng 10% giá cơ bản

Tính sẵn có

Nơi sử dụng

Nền tảng	Trạng thái	Model ID
Ứng dụng Gemini (người dùng)	Đang triển khai	Tự động chọn
Google AI Studio	Đã có sẵn	`gemini-3.1-pro-preview`
Vertex AI	Đã có sẵn	`gemini-3.1-pro-preview`
Gemini API	Đã có sẵn	`gemini-3.1-pro-preview`
Gemini CLI	Đã có sẵn	`gemini-3.1-pro-preview`
Antigravity	Đã có sẵn	Tự động chọn
Android Studio	Đã có sẵn	Tự động chọn
GitHub Copilot	Bản xem trước công khai	Có thể chọn
NotebookLM	Thuê bao Pro/Ultra	Tự động chọn

API Quick Start

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Endpoint công cụ tùy chỉnh

Google cũng đã ra mắt một endpoint chuyên dụng để cải thiện hiệu suất công cụ:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Sử dụng endpoint này khi xây dựng các agent phụ thuộc nhiều vào việc gọi hàm (function calling) và sử dụng công cụ.

Ý nghĩa của việc này

Cuộc đua suy luận đang nóng dần lên

Ba mô hình tiên phong đã được phát hành trong vòng 13 ngày:

6 tháng 2: Claude Opus 4.6 (Anthropic)

17 tháng 2: Claude Sonnet 4.6 (Anthropic)

19 tháng 2: Gemini 3.1 Pro (Google)

Mỗi mô hình đều tuyên bố dẫn đầu trong các lĩnh vực khác nhau. Cảnh quan mô hình đang phân mảnh — không còn một mô hình duy nhất nào thống trị tất cả mọi thứ nữa.

Khả năng suy luận tốt nhất phân khúc với mức giá tiết kiệm

Điểm số 77,1% trên ARC-AGI-2 của Gemini 3.1 Pro là điểm suy luận cao nhất hiện có, với mức giá thấp nhất ($2/$12). Đối với các tác vụ yêu cầu giải quyết vấn đề mới lạ, suy luận trừu tượng hoặc phân tích khoa học, đây là lựa chọn rõ ràng.

Sự tương đồng về khả năng lập trình

Với 80,6% trên SWE-bench (so với 80,8% của Opus 4.6 và 79,6% của Sonnet 4.6), Gemini 3.1 Pro lần đầu tiên có khả năng cạnh tranh về lập trình. Các mô hình Gemini trước đây thường tụt hậu đáng kể so với Claude trên benchmark này.

Mảnh ghép còn thiếu: Sử dụng máy tính

Gemini 3.1 Pro không có điểm benchmark trên OSWorld (sử dụng máy tính). Claude Sonnet 4.6 dẫn đầu với 72,5% ở khả năng này. Nếu quy trình làm việc của bạn liên quan đến tự động hóa trình duyệt, điền biểu mẫu hoặc điều khiển máy tính để bàn, Claude vẫn là lựa chọn khả thi duy nhất.

Đối với các nhà phát triển xây dựng sản phẩm

Những tác động thực tế:

Suy luận rẻ nhất: $0,44/phiên so với $0,60 (Sonnet) so với $0,80 (GPT-5.2)

Tốt nhất cho các tác vụ khoa học/phân tích: 94,3% GPQA Diamond là điểm số cao nhất hiện nay

Cạnh tranh về lập trình: 80,6% SWE-bench thu hẹp khoảng cách với Claude

Lợi thế đa phương thức: Xử lý video/âm thanh bản địa mà Claude và GPT không sánh kịp

Trạng thái xem trước: Chưa phải là bản chính thức (GA) — dự kiến sẽ có những cải thiện trước khi phát hành rộng rãi

Bạn đang xây dựng với AI? Y Build tích hợp với các công cụ AI ưa thích của bạn để phát triển, sau đó xử lý việc triển khai, video sản phẩm Demo Cut, AI SEO và phân tích — toàn bộ quy trình từ code đến tăng trưởng. Bắt đầu miễn phí.

Nguồn:

TL;DR

Google đã phát hành Gemini 3.1 Pro (bản xem trước) vào ngày 19 tháng 2 năm 2026. Các con số chính:

ARC-AGI-2: 77,1% — cao hơn gấp đôi Gemini 3 Pro (31,1%), đánh bại Opus 4.6 (68,8%) và GPT-5.2 (52,9%)
GPQA Diamond: 94,3% — dẫn đầu tất cả các mô hình về khoa học cấp độ sau đại học
SWE-bench: 80,6% — ngang ngửa với Opus 4.6 (80,8%) về lập trình
Giá: $2/$12 mỗi triệu token — mô hình tiên phong rẻ nhất
Ngữ cảnh 1 triệu token — không thay đổi so với Gemini 3 Pro
Dẫn đầu trên 13 trong số 16 bài kiểm tra benchmark được Google đánh giá
Đã có bản xem trước: AI Studio, Vertex AI, Gemini CLI, ứng dụng Gemini

Google đã công bố những gì

Chi tiết bảng điểm Benchmark

Nơi Gemini 3.1 Pro dẫn đầu (13 trên 16 benchmark)

Benchmark	Nội dung kiểm tra	Gemini 3.1 Pro	Đối thủ tốt nhất
ARC-AGI-2	Suy luận mới lạ	77,1%	Opus 4.6: 68,8%
GPQA Diamond	Khoa học sau đại học	94,3%	GPT-5.2: 92,4%
BrowseComp	Tìm kiếm web dựa trên agent	85,9%	Opus 4.6: 84,0%
Terminal-Bench 2.0	Lập trình Terminal	68,5%	Opus 4.6: 65,4%
APEX-Agents	Khả năng của agent	33,5%	Opus 4.6: 29,8%
MCP Atlas	Sử dụng công cụ	69,2%	—
t2-bench Telecom	Đặc thù lĩnh vực	99,3%	—
SWE-bench Verified	Lập trình	80,6%	Opus 4.6: 80,8%
MRCR v2	Ngữ cảnh dài	84,9%	Sonnet 4.6: 84,9% (hòa)

Nơi các đối thủ vẫn đang thắng

Benchmark	Nội dung kiểm tra	Người chiến thắng	Gemini 3.1 Pro
GDPval-AA (Elo)	Tác vụ văn phòng	Sonnet 4.6: 1633	Không tiết lộ
Terminal-Bench 2.0	Lập trình terminal phức tạp	GPT-5.3-Codex: 77,3%	68,5%
SWE-Bench Pro	Lập trình nâng cao	GPT-5.3-Codex: 56,8%	Không tiết lộ
OSWorld	Sử dụng máy tính	Sonnet 4.6: 72,5%	Chưa kiểm tra

Bước nhảy vọt về suy luận trong thực tế

Mô hình	ARC-AGI-2	Ngày
Gemini 3 Pro	31,1%	Th11 2025
GPT-5.2	52,9%	Th12 2025
Claude Opus 4.6	68,8%	Th2 2026
Gemini 3.1 Pro	77,1%	Th2 2026

Những thay đổi so với Gemini 3 Pro

1. Tích hợp Deep Think

2. Khả năng suy luận tốt hơn đáng kể

Các con số đã tự nói lên tất cả:

Benchmark	Gemini 3 Pro	Gemini 3.1 Pro	Cải thiện
ARC-AGI-2	31,1%	77,1%	+148%
GPQA Diamond	~88%	94,3%	+7%
APEX-Agents	18,4%	33,5%	+82%

3. Hiệu suất Agent tốt hơn

4. Duy trì sức mạnh đa phương thức

Giá cả

Cùng mức giá với Gemini 3 Pro — một bản nâng cấp miễn phí:

Kích thước ngữ cảnh	Đầu vào (mỗi triệu token)	Đầu ra (mỗi triệu token)
≤200K token	$2,00	$12,00
>200K token	$4,00	$18,00

So sánh với các đối thủ

Mô hình	Đầu vào	Đầu ra	Chi phí tương đối
Gemini 3.1 Pro	$2,00	$12,00	1x
Claude Sonnet 4.6	$3,00	$15,00	1,5x
GPT-5.2	$5,00	$15,00	2,0x (đầu vào)
Claude Opus 4.6	$15,00	$75,00	7,5x

Gemini 3.1 Pro là mô hình tiên phong rẻ nhất — rẻ hơn 33% so với Sonnet 4.6 về đầu vào và rẻ hơn 20% về đầu ra.

Chi phí mỗi phiên (100K vào + 20K ra)

Mô hình	Chi phí
Gemini 3.1 Pro	$0,44
Claude Sonnet 4.6	$0,60
GPT-5.2	$0,80
Claude Opus 4.6	$3,00

Tối ưu hóa chi phí bổ sung:

Chế độ Batch: Giảm giá 50% ($0,22/phiên)

Context caching: Các lượt đọc đầu vào được lưu đệm có chi phí bằng 10% giá cơ bản

Tính sẵn có

Nơi sử dụng

Nền tảng	Trạng thái	Model ID
Ứng dụng Gemini (người dùng)	Đang triển khai	Tự động chọn
Google AI Studio	Đã có sẵn	`gemini-3.1-pro-preview`
Vertex AI	Đã có sẵn	`gemini-3.1-pro-preview`
Gemini API	Đã có sẵn	`gemini-3.1-pro-preview`
Gemini CLI	Đã có sẵn	`gemini-3.1-pro-preview`
Antigravity	Đã có sẵn	Tự động chọn
Android Studio	Đã có sẵn	Tự động chọn
GitHub Copilot	Bản xem trước công khai	Có thể chọn
NotebookLM	Thuê bao Pro/Ultra	Tự động chọn

API Quick Start

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Endpoint công cụ tùy chỉnh

Google cũng đã ra mắt một endpoint chuyên dụng để cải thiện hiệu suất công cụ:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Sử dụng endpoint này khi xây dựng các agent phụ thuộc nhiều vào việc gọi hàm (function calling) và sử dụng công cụ.

Ý nghĩa của việc này

Cuộc đua suy luận đang nóng dần lên

Ba mô hình tiên phong đã được phát hành trong vòng 13 ngày:

6 tháng 2: Claude Opus 4.6 (Anthropic)

17 tháng 2: Claude Sonnet 4.6 (Anthropic)

19 tháng 2: Gemini 3.1 Pro (Google)

Khả năng suy luận tốt nhất phân khúc với mức giá tiết kiệm

Sự tương đồng về khả năng lập trình

Mảnh ghép còn thiếu: Sử dụng máy tính

Đối với các nhà phát triển xây dựng sản phẩm

Những tác động thực tế:

Suy luận rẻ nhất: $0,44/phiên so với $0,60 (Sonnet) so với $0,80 (GPT-5.2)

Tốt nhất cho các tác vụ khoa học/phân tích: 94,3% GPQA Diamond là điểm số cao nhất hiện nay

Cạnh tranh về lập trình: 80,6% SWE-bench thu hẹp khoảng cách với Claude

Lợi thế đa phương thức: Xử lý video/âm thanh bản địa mà Claude và GPT không sánh kịp

Trạng thái xem trước: Chưa phải là bản chính thức (GA) — dự kiến sẽ có những cải thiện trước khi phát hành rộng rãi

Nguồn: