Gemini 3.1 Pro:Googleの推論能力の飛躍を解説
Googleは2026年2月19日にGemini 3.1 Proをリリースしました。ARC-AGI-2で77.1%を記録し、Gemini 3 Proの2倍以上のスコアを達成しています。ベンチマークの詳細、価格(100万トークンあたり$2/$12)、利用可能性、そして開発者にとっての意味を詳しく解説します。
要約
Googleは2026年2月19日、Gemini 3.1 Pro(プレビュー版)をリリースしました。主な数値は以下の通りです。
- ARC-AGI-2: 77.1% — Gemini 3 Pro (31.1%)の2倍以上であり、Opus 4.6 (68.8%)やGPT-5.2 (52.9%)を上回る
- GPQA Diamond: 94.3% — 大学院レベルの科学において全モデルをリード
- SWE-bench: 80.6% — コーディングにおいてOpus 4.6 (80.8%)に匹敵
- 価格: 100万トークンあたり$2/$12 — 最も安価なフロンティアモデル
- 100万トークンのコンテキスト — Gemini 3 Proから変更なし
- Googleが評価した16のベンチマークのうち13で首位
- 現在プレビュー版が利用可能: AI Studio, Vertex AI, Gemini CLI, Geminiアプリ
Googleによる発表内容
2026年2月19日、GoogleはGemini 3.1 Proをリリースしました。これは同社のモデル・バージョニングにおける初の「.1」アップデートです。Gemini 3 Pro(2025年11月)をベースに、Gemini 3 Deep Thinkシリーズの手法を統合し、よりアクセスしやすく高速なモデルとして構築されています。
Googleのブログでは、複雑な多段階の推論、データの統合、エージェント的なワークフローなど、「単純な回答だけでは不十分なタスク」向けに設計されていると説明されています。
主要な統計:未知の抽象的推論のベンチマークであるARC-AGI-2で77.1%を記録しました。これはGemini 3 Proの31.1%の2倍以上であり、Opus 4.6 (68.8%)やGPT-5.2 (52.9%)を大きく引き離しています。VentureBeatはこれを「オンデマンドで推論の深さを調整可能なDeep Think Mini」と評しています。
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
ベンチマークの詳細
Gemini 3.1 Proがリードしている分野(16のベンチマーク中13)
| ベンチマーク | テスト内容 | Gemini 3.1 Pro | 最良の競合他社 |
|---|---|---|---|
| ARC-AGI-2 | 未知の推論 | 77.1% | Opus 4.6: 68.8% |
| GPQA Diamond | 大学院レベルの科学 | 94.3% | GPT-5.2: 92.4% |
| BrowseComp | エージェントによるウェブ検索 | 85.9% | Opus 4.6: 84.0% |
| Terminal-Bench 2.0 | ターミナルでのコーディング | 68.5% | Opus 4.6: 65.4% |
| APEX-Agents | エージェント能力 | 33.5% | Opus 4.6: 29.8% |
| MCP Atlas | ツール利用 | 69.2% | — |
| t2-bench Telecom | 特定ドメイン | 99.3% | — |
| SWE-bench Verified | コーディング | 80.6% | Opus 4.6: 80.8% |
| MRCR v2 | 長文コンテキスト | 84.9% | Sonnet 4.6: 84.9% (同率) |
競合他社が依然として優位な分野
| ベンチマーク | テスト内容 | 勝者 | Gemini 3.1 Pro |
|---|---|---|---|
| GDPval-AA (Elo) | 事務作業 | Sonnet 4.6: 1633 | 非公開 |
| Terminal-Bench 2.0 | 高度なターミナルコーディング | GPT-5.3-Codex: 77.3% | 68.5% |
| SWE-Bench Pro | 高度なコーディング | GPT-5.3-Codex: 56.8% | 非公開 |
| OSWorld | コンピュータ操作 | Sonnet 4.6: 72.5% | 未実施 |
文脈から見る推論能力の飛躍
ARC-AGI-2は、学習データのパターンマッチングではなく、純粋な抽象的推論能力、つまりモデルがこれまでに見たことのない問題を解決する能力を測定します。Geminiがどれほど急速に改善されたかを以下に示します。
| モデル | ARC-AGI-2 | 日付 |
|---|---|---|
| Gemini 3 Pro | 31.1% | 2025年11月 |
| GPT-5.2 | 52.9% | 2025年12月 |
| Claude Opus 4.6 | 68.8% | 2026年2月 |
| Gemini 3.1 Pro | 77.1% | 2026年2月 |
Gemini 3.1 Proは1回のバージョンアップで31.1%から77.1%へと、148%の向上を遂げました。これは、Deep Thinkの拡張推論技術をベースモデルに統合した成果です。
Gemini 3 Proからの変更点
1. Deep Thinkの統合
Gemini 3 Deep Thinkは、拡張推論に最適化された低速な別モデルでした。Gemini 3.1 Proは、これらの手法を標準モデルに組み込み、推論の深さを調整可能にしました。ほとんどのタスクにおいて、Deep Thinkレベルの推論をDeep Think特有の遅延なしで享受できます。
2. 劇的な推論能力の向上
数値がそれを物語っています:
| ベンチマーク | Gemini 3 Pro | Gemini 3.1 Pro | 改善率 |
|---|---|---|---|
| ARC-AGI-2 | 31.1% | 77.1% | +148% |
| GPQA Diamond | 約88% | 94.3% | +7% |
| APEX-Agents | 18.4% | 33.5% | +82% |
3. エージェント性能の向上
APEX-Agents (33.5%)とMCP Atlas (69.2%)のスコアは、Gemini 3.1 Proが自律型エージェントとして大幅に進化していることを示しています。ツール利用、多段階の計画、自己修正のすべてが改善されました。
4. マルチモーダルな強みの維持
Gemini 3.1 Proは、テキスト、画像、音声、動画を単一のコンテキスト内でネイティブに処理できるというGeminiの核心的な利点を維持しています。この価格帯でこれほどの幅広さを実現しているフロンティアモデルは他にありません。
価格
Gemini 3 Proと同じ価格で、実質的な無料アップグレードとなります。
| コンテキストサイズ | 入力(100万トークンあたり) | 出力(100万トークンあたり) |
|---|---|---|
| ≤20万トークン | $2.00 | $12.00 |
| >20万トークン | $4.00 | $18.00 |
競合他社との比較
| モデル | 入力 | 出力 | 相対コスト |
|---|---|---|---|
| Gemini 3.1 Pro | $2.00 | $12.00 | 1倍 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 1.5倍 |
| GPT-5.2 | $5.00 | $15.00 | 2.0倍(入力) |
| Claude Opus 4.6 | $15.00 | $75.00 | 7.5倍 |
Gemini 3.1 Proは、入力においてSonnet 4.6より33%安く、出力において20%安い、最も安価なフロンティアモデルです。
セッションあたりのコスト (入力10万 + 出力2万)
| モデル | コスト |
|---|---|
| Gemini 3.1 Pro | $0.44 |
| Claude Sonnet 4.6 | $0.60 |
| GPT-5.2 | $0.80 |
| Claude Opus 4.6 | $3.00 |
その他のコスト最適化:
- Batch mode (バッチモード): 50%割引 (セッションあたり$0.22)
- Context caching (コンテキストキャッシュ): キャッシュされた入力読み取りは基本料金の10%
利用可能性
使用可能な場所
| プラットフォーム | ステータス | モデルID |
|---|---|---|
| Geminiアプリ(一般消費者向け) | 順次展開中 | 自動選択 |
| Google AI Studio | 現在利用可能 | gemini-3.1-pro-preview |
| Vertex AI | 現在利用可能 | gemini-3.1-pro-preview |
| Gemini API | 現在利用可能 | gemini-3.1-pro-preview |
| Gemini CLI | 現在利用可能 | gemini-3.1-pro-preview |
| Antigravity | 現在利用可能 | 自動選択 |
| Android Studio | 現在利用可能 | 自動選択 |
| GitHub Copilot | パブリックプレビュー | 選択可能 |
| NotebookLM | Pro/Ultraサブスクライバー | 自動選択 |
APIクイックスタート
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")
response = model.generate_content("Your prompt here")
print(response.text)
カスタムツール・エンドポイント
Googleは、ツール性能を高めるための専用エンドポイントもリリースしました。
model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")
ファンクションコーリングやツールの使用に大きく依存するエージェントを構築する際に、このエンドポイントを使用してください。
これが意味すること
推論能力の競争が激化
13日間で3つのフロンティアモデルがリリースされました。
- 2月6日: Claude Opus 4.6 (Anthropic)
- 2月17日: Claude Sonnet 4.6 (Anthropic)
- 2月19日: Gemini 3.1 Pro (Google)
各モデルが異なる分野でリーダーシップを主張しています。モデルの勢力図は断片化しており、もはや単一のモデルがすべてを支配することはありません。
低価格で最高クラスの推論能力
Gemini 3.1 ProのARC-AGI-2スコア77.1%は、入手可能な最高の推論スコアを最低価格($2/$12)で提供するものです。新しい問題解決、抽象的推論、科学的分析を必要とするタスクにおいて、これは明快な選択肢となります。
コーディング能力の同等性
SWE-benchで80.6%を記録し(Opus 4.6の80.8%、Sonnet 4.6の79.6%と比較)、Gemini 3.1 Proは初めてコーディングにおいて競争力を持ちました。以前のGeminiモデルはこのベンチマークでClaudeに大きく遅れをとっていました。
欠けているピース:コンピュータ操作
Gemini 3.1 ProはOSWorld(コンピュータ操作)のベンチマークが公開されていません。Claude Sonnet 4.6はこの能力で72.5%とリードしています。ブラウザの自動化、フォーム入力、デスクトップ制御を含むワークフローの場合、依然としてClaudeが唯一の現実的な選択肢です。
製品を構築する開発者向け
実践的な影響:
- 最も安価な推論: セッションあたり$0.44(Sonnetは$0.60、GPT-5.2は$0.80)。
- 科学的・分析的タスクに最適: 94.3%のGPQA Diamondは利用可能な最高スコア。
- コーディングでの競争力: 80.6%のSWE-benchでClaudeとの差を縮小。
- マルチモーダルの優位性: ClaudeやGPTが対応していないネイティブな動画/音声処理。
- プレビュー状態: まだGA(一般提供)ではなく、正式リリースまでにさらなる改善が期待されます。
AIで構築中ですか? Y Build は開発用にお好みのAIツールと統合し、デプロイ、Demo Cut製品ビデオ、AI SEO、アナリティクスまで、コードから成長までのフルスタックをサポートします。無料で開始.
出典:
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.