Gemini 3.1 Pro：详解 Google 的推理飞跃

摘要 (TL;DR)

Google 于 2026 年 2 月 19 日发布了 Gemini 3.1 Pro（预览版）。核心数据如下：

ARC-AGI-2: 77.1% —— 是 Gemini 3 Pro (31.1%) 的两倍多，超越了 Opus 4.6 (68.8%) 和 GPT-5.2 (52.9%)
GPQA Diamond: 94.3% —— 在研究生水平科学测试中领先所有模型
SWE-bench: 80.6% —— 在代码编写方面与 Opus 4.6 (80.8%) 持平
价格：每百万 token $2/$12 —— 最便宜的前沿模型
1M token 上下文 —— 与 Gemini 3 Pro 保持一致
在 Google 评估的 16 项基准测试中领先 13 项
现已开启预览：可在 AI Studio、Vertex AI、Gemini CLI 和 Gemini app 中使用

Google 发布了什么

2026 年 2 月 19 日，Google 发布了 Gemini 3.1 Pro —— 这是其模型版本命名中的第一个 ".1" 增量更新。它基于 Gemini 3 Pro（2025 年 11 月）构建，通过将 Gemini 3 Deep Think 系列的技术整合到一个更易于访问、速度更快的模型中实现。

Google 的官方博客将其描述为专为“简单回答已不足够的任务”而设计 —— 如复杂的跨步骤推理、数据综合和智能体工作流（agentic workflows）。

最引人注目的数据是：ARC-AGI-2 得分 77.1%，这是衡量新型抽象推理能力的基准测试。这一成绩是 Gemini 3 Pro (31.1%) 的两倍多，并显著领先于 Opus 4.6 (68.8%) 和 GPT-5.2 (52.9%)。VentureBeat 将其称为“具备按需可调推理能力的 Deep Think Mini”。

完整基准测试分析

Gemini 3.1 Pro 领先的项目（16 项中的 13 项）

基准测试	测试内容	Gemini 3.1 Pro	最强竞品
ARC-AGI-2	新型推理	77.1%	Opus 4.6: 68.8%
GPQA Diamond	研究生水平科学	94.3%	GPT-5.2: 92.4%
BrowseComp	智能体网页搜索	85.9%	Opus 4.6: 84.0%
Terminal-Bench 2.0	终端代码编写	68.5%	Opus 4.6: 65.4%
APEX-Agents	智能体能力	33.5%	Opus 4.6: 29.8%
MCP Atlas	工具调用	69.2%	—
t2-bench Telecom	特定领域能力	99.3%	—
SWE-bench Verified	代码编写	80.6%	Opus 4.6: 80.8%
MRCR v2	长上下文	84.9%	Sonnet 4.6: 84.9% (并列)

竞品仍保持领先的项目

基准测试	测试内容	胜出者	Gemini 3.1 Pro
GDPval-AA (Elo)	办公任务	Sonnet 4.6: 1633	未公开
Terminal-Bench 2.0	重度终端代码编写	GPT-5.3-Codex: 77.3%	68.5%
SWE-Bench Pro	高级代码编写	GPT-5.3-Codex: 56.8%	未公开
OSWorld	计算机操作	Sonnet 4.6: 72.5%	未测试

推理飞跃的背景

ARC-AGI-2 衡量模型解决从未见过的任务的能力 —— 这是纯粹的抽象推理，而非对训练数据的模式匹配。以下是 Gemini 进步的速度：

模型	ARC-AGI-2	日期
Gemini 3 Pro	31.1%	2025 年 11 月
GPT-5.2	52.9%	2025 年 12 月
Claude Opus 4.6	68.8%	2026 年 2 月
Gemini 3.1 Pro	77.1%	2026 年 2 月

Gemini 3.1 Pro 在一个版本内从 31.1% 跃升至 77.1% —— 提升了 148%。这归功于将 Deep Think 的扩展推理技术集成到了基础模型中。

与 Gemini 3 Pro 相比有哪些变化

1. Deep Think 技术集成

Gemini 3 Deep Think 曾是一个独立的、为了扩展推理而优化的慢速模型。Gemini 3.1 Pro 将这些技术融入了标准模型中，并提供可调节的推理深度。对于大多数任务，你可以在不增加 Deep Think 延迟的情况下获得同等级别的推理能力。

2. 推理能力显著提升

数据说明了一切：

基准测试	Gemini 3 Pro	Gemini 3.1 Pro	提升幅度
ARC-AGI-2	31.1%	77.1%	+148%
GPQA Diamond	~88%	94.3%	+7%
APEX-Agents	18.4%	33.5%	+82%

3. 更强的智能体表现

APEX-Agents (33.5%) 和 MCP Atlas (69.2%) 的得分表明，Gemini 3.1 Pro 作为自主智能体的能力显著增强 —— 工具调用、多步骤规划和自我修正能力均有所提升。

4. 保持多模态优势

Gemini 3.1 Pro 保留了 Gemini 的核心优势：在单个上下文中对文本、图像、音频和视频进行原生多模态处理。在此价位上，没有其他前沿模型能匹配这种广度。

定价

价格与 Gemini 3 Pro 相同 —— 相当于免费升级：

上下文大小	输入（每百万 token）	输出（每百万 token）
≤200K tokens	$2.00	$12.00
>200K tokens	$4.00	$18.00

与竞品对比

模型	输入	输出	相对成本
Gemini 3.1 Pro	$2.00	$12.00	1x
Claude Sonnet 4.6	$3.00	$15.00	1.5x
GPT-5.2	$5.00	$15.00	2.0x (输入)
Claude Opus 4.6	$15.00	$75.00	7.5x

Gemini 3.1 Pro 是最便宜的前沿模型 —— 输入成本比 Sonnet 4.6 低 33%，输出成本低 20%。

单次会话成本（10 万输入 + 2 万输出）

模型	成本
Gemini 3.1 Pro	$0.44
Claude Sonnet 4.6	$0.60
GPT-5.2	$0.80
Claude Opus 4.6	$3.00

额外的成本优化方案：

批处理模式 (Batch mode)：50% 折扣（$0.22/会话）

上下文缓存 (Context caching)：缓存的输入读取成本仅为基础价格的 10%

可用性

如何使用

平台	状态	模型 ID
Gemini App (用户端)	正在推送	自动选择
Google AI Studio	现已可用	`gemini-3.1-pro-preview`
Vertex AI	现已可用	`gemini-3.1-pro-preview`
Gemini API	现已可用	`gemini-3.1-pro-preview`
Gemini CLI	现已可用	`gemini-3.1-pro-preview`
Antigravity	现已可用	自动选择
Android Studio	现已可用	自动选择
GitHub Copilot	公测中	可手动选择
NotebookLM	Pro/Ultra 订阅用户	自动选择

API 快速入门

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

自定义工具端点

Google 还推出了一个专门提升工具性能的端点：

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

在构建重度依赖函数调用（function calling）和工具使用的智能体时，请使用此端点。

这意味着什么

推理竞赛白热化

13 天内发布了三个前沿模型：

2 月 6 日：Claude Opus 4.6 (Anthropic)

2 月 17 日：Claude Sonnet 4.6 (Anthropic)

2 月 19 日：Gemini 3.1 Pro (Google)

每个模型都声称在不同领域领先。模型格局正在碎片化 —— 不再有单一模型能在所有方面占据统治地位。

极致性价比的高级推理

Gemini 3.1 Pro 的 77.1% ARC-AGI-2 是目前可用的最高推理分数，且价格最低（$2/$12）。对于需要新型问题解决能力、抽象推理或科学分析的任务，它是显而易见的首选。

代码编写能力持平

凭借 SWE-bench 80.6% 的得分（对比 Opus 4.6 的 80.8% 和 Sonnet 4.6 的 79.6%），Gemini 3.1 Pro 首次在代码编写方面具备了竞争力。此前，Gemini 模型在该基准测试中落后 Claude 较多。

缺失的一环：计算机操作

Gemini 3.1 Pro 未在 OSWorld（计算机操作）上进行测试。Claude Sonnet 4.6 在这项能力上以 72.5% 领先。如果你的工作流涉及浏览器自动化、表格填充或桌面控制，Claude 仍是唯一可行的选择。

对产品开发者的启示

实际影响：

最便宜的推理：$0.44/会话，而 Sonnet 为 $0.60，GPT-5.2 为 $0.80

科学/分析任务的最佳选择：94.3% 的 GPQA Diamond 是目前最高分

代码能力具备竞争力：80.6% 的 SWE-bench 缩小了与 Claude 的差距

多模态优势：原生视频/音频处理，这是 Claude 和 GPT 无法匹配的

预览状态：尚未正式发布 (GA) —— 预计在正式版前会有进一步改进

正在使用 AI 构建产品？Y Build 集成了您首选的 AI 开发工具，随后处理部署、Demo Cut 产品视频、AI SEO 和分析 —— 提供从代码到增长的全栈支持。免费开始.

参考来源：

摘要 (TL;DR)

Google 于 2026 年 2 月 19 日发布了 Gemini 3.1 Pro（预览版）。核心数据如下：

ARC-AGI-2: 77.1% —— 是 Gemini 3 Pro (31.1%) 的两倍多，超越了 Opus 4.6 (68.8%) 和 GPT-5.2 (52.9%)
GPQA Diamond: 94.3% —— 在研究生水平科学测试中领先所有模型
SWE-bench: 80.6% —— 在代码编写方面与 Opus 4.6 (80.8%) 持平
价格：每百万 token $2/$12 —— 最便宜的前沿模型
1M token 上下文 —— 与 Gemini 3 Pro 保持一致
在 Google 评估的 16 项基准测试中领先 13 项
现已开启预览：可在 AI Studio、Vertex AI、Gemini CLI 和 Gemini app 中使用

Google 发布了什么

Google 的官方博客将其描述为专为“简单回答已不足够的任务”而设计 —— 如复杂的跨步骤推理、数据综合和智能体工作流（agentic workflows）。

完整基准测试分析

Gemini 3.1 Pro 领先的项目（16 项中的 13 项）

基准测试	测试内容	Gemini 3.1 Pro	最强竞品
ARC-AGI-2	新型推理	77.1%	Opus 4.6: 68.8%
GPQA Diamond	研究生水平科学	94.3%	GPT-5.2: 92.4%
BrowseComp	智能体网页搜索	85.9%	Opus 4.6: 84.0%
Terminal-Bench 2.0	终端代码编写	68.5%	Opus 4.6: 65.4%
APEX-Agents	智能体能力	33.5%	Opus 4.6: 29.8%
MCP Atlas	工具调用	69.2%	—
t2-bench Telecom	特定领域能力	99.3%	—
SWE-bench Verified	代码编写	80.6%	Opus 4.6: 80.8%
MRCR v2	长上下文	84.9%	Sonnet 4.6: 84.9% (并列)

竞品仍保持领先的项目

基准测试	测试内容	胜出者	Gemini 3.1 Pro
GDPval-AA (Elo)	办公任务	Sonnet 4.6: 1633	未公开
Terminal-Bench 2.0	重度终端代码编写	GPT-5.3-Codex: 77.3%	68.5%
SWE-Bench Pro	高级代码编写	GPT-5.3-Codex: 56.8%	未公开
OSWorld	计算机操作	Sonnet 4.6: 72.5%	未测试

推理飞跃的背景

ARC-AGI-2 衡量模型解决从未见过的任务的能力 —— 这是纯粹的抽象推理，而非对训练数据的模式匹配。以下是 Gemini 进步的速度：

模型	ARC-AGI-2	日期
Gemini 3 Pro	31.1%	2025 年 11 月
GPT-5.2	52.9%	2025 年 12 月
Claude Opus 4.6	68.8%	2026 年 2 月
Gemini 3.1 Pro	77.1%	2026 年 2 月

Gemini 3.1 Pro 在一个版本内从 31.1% 跃升至 77.1% —— 提升了 148%。这归功于将 Deep Think 的扩展推理技术集成到了基础模型中。

与 Gemini 3 Pro 相比有哪些变化

1. Deep Think 技术集成

2. 推理能力显著提升

数据说明了一切：

基准测试	Gemini 3 Pro	Gemini 3.1 Pro	提升幅度
ARC-AGI-2	31.1%	77.1%	+148%
GPQA Diamond	~88%	94.3%	+7%
APEX-Agents	18.4%	33.5%	+82%

3. 更强的智能体表现

APEX-Agents (33.5%) 和 MCP Atlas (69.2%) 的得分表明，Gemini 3.1 Pro 作为自主智能体的能力显著增强 —— 工具调用、多步骤规划和自我修正能力均有所提升。

4. 保持多模态优势

定价

价格与 Gemini 3 Pro 相同 —— 相当于免费升级：

上下文大小	输入（每百万 token）	输出（每百万 token）
≤200K tokens	$2.00	$12.00
>200K tokens	$4.00	$18.00

与竞品对比

模型	输入	输出	相对成本
Gemini 3.1 Pro	$2.00	$12.00	1x
Claude Sonnet 4.6	$3.00	$15.00	1.5x
GPT-5.2	$5.00	$15.00	2.0x (输入)
Claude Opus 4.6	$15.00	$75.00	7.5x

Gemini 3.1 Pro 是最便宜的前沿模型 —— 输入成本比 Sonnet 4.6 低 33%，输出成本低 20%。

单次会话成本（10 万输入 + 2 万输出）

模型	成本
Gemini 3.1 Pro	$0.44
Claude Sonnet 4.6	$0.60
GPT-5.2	$0.80
Claude Opus 4.6	$3.00

额外的成本优化方案：

批处理模式 (Batch mode)：50% 折扣（$0.22/会话）

上下文缓存 (Context caching)：缓存的输入读取成本仅为基础价格的 10%

可用性

如何使用

平台	状态	模型 ID
Gemini App (用户端)	正在推送	自动选择
Google AI Studio	现已可用	`gemini-3.1-pro-preview`
Vertex AI	现已可用	`gemini-3.1-pro-preview`
Gemini API	现已可用	`gemini-3.1-pro-preview`
Gemini CLI	现已可用	`gemini-3.1-pro-preview`
Antigravity	现已可用	自动选择
Android Studio	现已可用	自动选择
GitHub Copilot	公测中	可手动选择
NotebookLM	Pro/Ultra 订阅用户	自动选择

API 快速入门

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

自定义工具端点

Google 还推出了一个专门提升工具性能的端点：

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

在构建重度依赖函数调用（function calling）和工具使用的智能体时，请使用此端点。

这意味着什么

推理竞赛白热化

13 天内发布了三个前沿模型：

2 月 6 日：Claude Opus 4.6 (Anthropic)

2 月 17 日：Claude Sonnet 4.6 (Anthropic)

2 月 19 日：Gemini 3.1 Pro (Google)

每个模型都声称在不同领域领先。模型格局正在碎片化 —— 不再有单一模型能在所有方面占据统治地位。

极致性价比的高级推理

代码编写能力持平

缺失的一环：计算机操作

对产品开发者的启示

实际影响：

最便宜的推理：$0.44/会话，而 Sonnet 为 $0.60，GPT-5.2 为 $0.80

科学/分析任务的最佳选择：94.3% 的 GPQA Diamond 是目前最高分

代码能力具备竞争力：80.6% 的 SWE-bench 缩小了与 Claude 的差距

多模态优势：原生视频/音频处理，这是 Claude 和 GPT 无法匹配的

预览状态：尚未正式发布 (GA) —— 预计在正式版前会有进一步改进

参考来源：