Gemini 3.1 Pro:详解 Google 的推理飞跃
Google 于 2026 年 2 月 19 日发布了 Gemini 3.1 Pro —— 其在 ARC-AGI-2 测试中得分 77.1%,是 Gemini 3 Pro 的两倍多。本文包含完整的基准测试分析、定价(每百万 token $2/$12)、可用性以及对开发者的意义。
摘要 (TL;DR)
Google 于 2026 年 2 月 19 日发布了 Gemini 3.1 Pro(预览版)。核心数据如下:
- ARC-AGI-2: 77.1% —— 是 Gemini 3 Pro (31.1%) 的两倍多,超越了 Opus 4.6 (68.8%) 和 GPT-5.2 (52.9%)
- GPQA Diamond: 94.3% —— 在研究生水平科学测试中领先所有模型
- SWE-bench: 80.6% —— 在代码编写方面与 Opus 4.6 (80.8%) 持平
- 价格:每百万 token $2/$12 —— 最便宜的前沿模型
- 1M token 上下文 —— 与 Gemini 3 Pro 保持一致
- 在 Google 评估的 16 项基准测试中领先 13 项
- 现已开启预览:可在 AI Studio、Vertex AI、Gemini CLI 和 Gemini app 中使用
Google 发布了什么
2026 年 2 月 19 日,Google 发布了 Gemini 3.1 Pro —— 这是其模型版本命名中的第一个 ".1" 增量更新。它基于 Gemini 3 Pro(2025 年 11 月)构建,通过将 Gemini 3 Deep Think 系列的技术整合到一个更易于访问、速度更快的模型中实现。
Google 的官方博客将其描述为专为“简单回答已不足够的任务”而设计 —— 如复杂的跨步骤推理、数据综合和智能体工作流(agentic workflows)。
最引人注目的数据是:ARC-AGI-2 得分 77.1%,这是衡量新型抽象推理能力的基准测试。这一成绩是 Gemini 3 Pro (31.1%) 的两倍多,并显著领先于 Opus 4.6 (68.8%) 和 GPT-5.2 (52.9%)。VentureBeat 将其称为“具备按需可调推理能力的 Deep Think Mini”。
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
完整基准测试分析
Gemini 3.1 Pro 领先的项目(16 项中的 13 项)
| 基准测试 | 测试内容 | Gemini 3.1 Pro | 最强竞品 |
|---|---|---|---|
| ARC-AGI-2 | 新型推理 | 77.1% | Opus 4.6: 68.8% |
| GPQA Diamond | 研究生水平科学 | 94.3% | GPT-5.2: 92.4% |
| BrowseComp | 智能体网页搜索 | 85.9% | Opus 4.6: 84.0% |
| Terminal-Bench 2.0 | 终端代码编写 | 68.5% | Opus 4.6: 65.4% |
| APEX-Agents | 智能体能力 | 33.5% | Opus 4.6: 29.8% |
| MCP Atlas | 工具调用 | 69.2% | — |
| t2-bench Telecom | 特定领域能力 | 99.3% | — |
| SWE-bench Verified | 代码编写 | 80.6% | Opus 4.6: 80.8% |
| MRCR v2 | 长上下文 | 84.9% | Sonnet 4.6: 84.9% (并列) |
竞品仍保持领先的项目
| 基准测试 | 测试内容 | 胜出者 | Gemini 3.1 Pro |
|---|---|---|---|
| GDPval-AA (Elo) | 办公任务 | Sonnet 4.6: 1633 | 未公开 |
| Terminal-Bench 2.0 | 重度终端代码编写 | GPT-5.3-Codex: 77.3% | 68.5% |
| SWE-Bench Pro | 高级代码编写 | GPT-5.3-Codex: 56.8% | 未公开 |
| OSWorld | 计算机操作 | Sonnet 4.6: 72.5% | 未测试 |
推理飞跃的背景
ARC-AGI-2 衡量模型解决从未见过的任务的能力 —— 这是纯粹的抽象推理,而非对训练数据的模式匹配。以下是 Gemini 进步的速度:
| 模型 | ARC-AGI-2 | 日期 |
|---|---|---|
| Gemini 3 Pro | 31.1% | 2025 年 11 月 |
| GPT-5.2 | 52.9% | 2025 年 12 月 |
| Claude Opus 4.6 | 68.8% | 2026 年 2 月 |
| Gemini 3.1 Pro | 77.1% | 2026 年 2 月 |
Gemini 3.1 Pro 在一个版本内从 31.1% 跃升至 77.1% —— 提升了 148%。这归功于将 Deep Think 的扩展推理技术集成到了基础模型中。
与 Gemini 3 Pro 相比有哪些变化
1. Deep Think 技术集成
Gemini 3 Deep Think 曾是一个独立的、为了扩展推理而优化的慢速模型。Gemini 3.1 Pro 将这些技术融入了标准模型中,并提供可调节的推理深度。对于大多数任务,你可以在不增加 Deep Think 延迟的情况下获得同等级别的推理能力。
2. 推理能力显著提升
数据说明了一切:
| 基准测试 | Gemini 3 Pro | Gemini 3.1 Pro | 提升幅度 |
|---|---|---|---|
| ARC-AGI-2 | 31.1% | 77.1% | +148% |
| GPQA Diamond | ~88% | 94.3% | +7% |
| APEX-Agents | 18.4% | 33.5% | +82% |
3. 更强的智能体表现
APEX-Agents (33.5%) 和 MCP Atlas (69.2%) 的得分表明,Gemini 3.1 Pro 作为自主智能体的能力显著增强 —— 工具调用、多步骤规划和自我修正能力均有所提升。
4. 保持多模态优势
Gemini 3.1 Pro 保留了 Gemini 的核心优势:在单个上下文中对文本、图像、音频和视频进行原生多模态处理。在此价位上,没有其他前沿模型能匹配这种广度。
定价
价格与 Gemini 3 Pro 相同 —— 相当于免费升级:
| 上下文大小 | 输入(每百万 token) | 输出(每百万 token) |
|---|---|---|
| ≤200K tokens | $2.00 | $12.00 |
| >200K tokens | $4.00 | $18.00 |
与竞品对比
| 模型 | 输入 | 输出 | 相对成本 |
|---|---|---|---|
| Gemini 3.1 Pro | $2.00 | $12.00 | 1x |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 1.5x |
| GPT-5.2 | $5.00 | $15.00 | 2.0x (输入) |
| Claude Opus 4.6 | $15.00 | $75.00 | 7.5x |
Gemini 3.1 Pro 是最便宜的前沿模型 —— 输入成本比 Sonnet 4.6 低 33%,输出成本低 20%。
单次会话成本(10 万输入 + 2 万输出)
| 模型 | 成本 |
|---|---|
| Gemini 3.1 Pro | $0.44 |
| Claude Sonnet 4.6 | $0.60 |
| GPT-5.2 | $0.80 |
| Claude Opus 4.6 | $3.00 |
额外的成本优化方案:
- 批处理模式 (Batch mode):50% 折扣($0.22/会话)
- 上下文缓存 (Context caching):缓存的输入读取成本仅为基础价格的 10%
可用性
如何使用
| 平台 | 状态 | 模型 ID |
|---|---|---|
| Gemini App (用户端) | 正在推送 | 自动选择 |
| Google AI Studio | 现已可用 | gemini-3.1-pro-preview |
| Vertex AI | 现已可用 | gemini-3.1-pro-preview |
| Gemini API | 现已可用 | gemini-3.1-pro-preview |
| Gemini CLI | 现已可用 | gemini-3.1-pro-preview |
| Antigravity | 现已可用 | 自动选择 |
| Android Studio | 现已可用 | 自动选择 |
| GitHub Copilot | 公测中 | 可手动选择 |
| NotebookLM | Pro/Ultra 订阅用户 | 自动选择 |
API 快速入门
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")
response = model.generate_content("Your prompt here")
print(response.text)
自定义工具端点
Google 还推出了一个专门提升工具性能的端点:
model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")
在构建重度依赖函数调用(function calling)和工具使用的智能体时,请使用此端点。
这意味着什么
推理竞赛白热化
13 天内发布了三个前沿模型:
- 2 月 6 日:Claude Opus 4.6 (Anthropic)
- 2 月 17 日:Claude Sonnet 4.6 (Anthropic)
- 2 月 19 日:Gemini 3.1 Pro (Google)
每个模型都声称在不同领域领先。模型格局正在碎片化 —— 不再有单一模型能在所有方面占据统治地位。
极致性价比的高级推理
Gemini 3.1 Pro 的 77.1% ARC-AGI-2 是目前可用的最高推理分数,且价格最低($2/$12)。对于需要新型问题解决能力、抽象推理或科学分析的任务,它是显而易见的首选。
代码编写能力持平
凭借 SWE-bench 80.6% 的得分(对比 Opus 4.6 的 80.8% 和 Sonnet 4.6 的 79.6%),Gemini 3.1 Pro 首次在代码编写方面具备了竞争力。此前,Gemini 模型在该基准测试中落后 Claude 较多。
缺失的一环:计算机操作
Gemini 3.1 Pro 未在 OSWorld(计算机操作)上进行测试。Claude Sonnet 4.6 在这项能力上以 72.5% 领先。如果你的工作流涉及浏览器自动化、表格填充或桌面控制,Claude 仍是唯一可行的选择。
对产品开发者的启示
实际影响:
- 最便宜的推理:$0.44/会话,而 Sonnet 为 $0.60,GPT-5.2 为 $0.80
- 科学/分析任务的最佳选择:94.3% 的 GPQA Diamond 是目前最高分
- 代码能力具备竞争力:80.6% 的 SWE-bench 缩小了与 Claude 的差距
- 多模态优势:原生视频/音频处理,这是 Claude 和 GPT 无法匹配的
- 预览状态:尚未正式发布 (GA) —— 预计在正式版前会有进一步改进
正在使用 AI 构建产品?Y Build 集成了您首选的 AI 开发工具,随后处理部署、Demo Cut 产品视频、AI SEO 和分析 —— 提供从代码到增长的全栈支持。免费开始.
参考来源:
- Google Blog: Gemini 3.1 Pro announcement
- Google DeepMind: Gemini 3.1 Pro Model Card
- 9to5Google: Gemini 3.1 Pro for complex problem-solving
- VentureBeat: Gemini 3.1 Pro first impressions
- MarkTechPost: Gemini 3.1 Pro 77.1% ARC-AGI-2
- OfficeChai: Gemini 3.1 Pro Benchmarks
- GitHub Blog: Gemini 3.1 Pro in GitHub Copilot
- The Decoder: Gemini 3.1 Pro reasoning
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.