Gemini 3.1 Pro：Googleの推論能力の飛躍を解説

要約

Googleは2026年2月19日、Gemini 3.1 Pro（プレビュー版）をリリースしました。主な数値は以下の通りです。

ARC-AGI-2: 77.1% — Gemini 3 Pro (31.1%)の2倍以上であり、Opus 4.6 (68.8%)やGPT-5.2 (52.9%)を上回る
GPQA Diamond: 94.3% — 大学院レベルの科学において全モデルをリード
SWE-bench: 80.6% — コーディングにおいてOpus 4.6 (80.8%)に匹敵
価格: 100万トークンあたり$2/$12 — 最も安価なフロンティアモデル
100万トークンのコンテキスト — Gemini 3 Proから変更なし
Googleが評価した16のベンチマークのうち13で首位
現在プレビュー版が利用可能: AI Studio, Vertex AI, Gemini CLI, Geminiアプリ

Googleによる発表内容

2026年2月19日、GoogleはGemini 3.1 Proをリリースしました。これは同社のモデル・バージョニングにおける初の「.1」アップデートです。Gemini 3 Pro（2025年11月）をベースに、Gemini 3 Deep Thinkシリーズの手法を統合し、よりアクセスしやすく高速なモデルとして構築されています。

Googleのブログでは、複雑な多段階の推論、データの統合、エージェント的なワークフローなど、「単純な回答だけでは不十分なタスク」向けに設計されていると説明されています。

主要な統計：未知の抽象的推論のベンチマークであるARC-AGI-2で77.1%を記録しました。これはGemini 3 Proの31.1%の2倍以上であり、Opus 4.6 (68.8%)やGPT-5.2 (52.9%)を大きく引き離しています。VentureBeatはこれを「オンデマンドで推論の深さを調整可能なDeep Think Mini」と評しています。

ベンチマークの詳細

Gemini 3.1 Proがリードしている分野（16のベンチマーク中13）

ベンチマーク	テスト内容	Gemini 3.1 Pro	最良の競合他社
ARC-AGI-2	未知の推論	77.1%	Opus 4.6: 68.8%
GPQA Diamond	大学院レベルの科学	94.3%	GPT-5.2: 92.4%
BrowseComp	エージェントによるウェブ検索	85.9%	Opus 4.6: 84.0%
Terminal-Bench 2.0	ターミナルでのコーディング	68.5%	Opus 4.6: 65.4%
APEX-Agents	エージェント能力	33.5%	Opus 4.6: 29.8%
MCP Atlas	ツール利用	69.2%	—
t2-bench Telecom	特定ドメイン	99.3%	—
SWE-bench Verified	コーディング	80.6%	Opus 4.6: 80.8%
MRCR v2	長文コンテキスト	84.9%	Sonnet 4.6: 84.9% (同率)

競合他社が依然として優位な分野

ベンチマーク	テスト内容	勝者	Gemini 3.1 Pro
GDPval-AA (Elo)	事務作業	Sonnet 4.6: 1633	非公開
Terminal-Bench 2.0	高度なターミナルコーディング	GPT-5.3-Codex: 77.3%	68.5%
SWE-Bench Pro	高度なコーディング	GPT-5.3-Codex: 56.8%	非公開
OSWorld	コンピュータ操作	Sonnet 4.6: 72.5%	未実施

文脈から見る推論能力の飛躍

ARC-AGI-2は、学習データのパターンマッチングではなく、純粋な抽象的推論能力、つまりモデルがこれまでに見たことのない問題を解決する能力を測定します。Geminiがどれほど急速に改善されたかを以下に示します。

モデル	ARC-AGI-2	日付
Gemini 3 Pro	31.1%	2025年11月
GPT-5.2	52.9%	2025年12月
Claude Opus 4.6	68.8%	2026年2月
Gemini 3.1 Pro	77.1%	2026年2月

Gemini 3.1 Proは1回のバージョンアップで31.1%から77.1%へと、148%の向上を遂げました。これは、Deep Thinkの拡張推論技術をベースモデルに統合した成果です。

Gemini 3 Proからの変更点

1. Deep Thinkの統合

Gemini 3 Deep Thinkは、拡張推論に最適化された低速な別モデルでした。Gemini 3.1 Proは、これらの手法を標準モデルに組み込み、推論の深さを調整可能にしました。ほとんどのタスクにおいて、Deep Thinkレベルの推論をDeep Think特有の遅延なしで享受できます。

2. 劇的な推論能力の向上

数値がそれを物語っています：

ベンチマーク	Gemini 3 Pro	Gemini 3.1 Pro	改善率
ARC-AGI-2	31.1%	77.1%	+148%
GPQA Diamond	約88%	94.3%	+7%
APEX-Agents	18.4%	33.5%	+82%

3. エージェント性能の向上

APEX-Agents (33.5%)とMCP Atlas (69.2%)のスコアは、Gemini 3.1 Proが自律型エージェントとして大幅に進化していることを示しています。ツール利用、多段階の計画、自己修正のすべてが改善されました。

4. マルチモーダルな強みの維持

Gemini 3.1 Proは、テキスト、画像、音声、動画を単一のコンテキスト内でネイティブに処理できるというGeminiの核心的な利点を維持しています。この価格帯でこれほどの幅広さを実現しているフロンティアモデルは他にありません。

価格

Gemini 3 Proと同じ価格で、実質的な無料アップグレードとなります。

コンテキストサイズ	入力（100万トークンあたり）	出力（100万トークンあたり）
≤20万トークン	$2.00	$12.00
>20万トークン	$4.00	$18.00

競合他社との比較

モデル	入力	出力	相対コスト
Gemini 3.1 Pro	$2.00	$12.00	1倍
Claude Sonnet 4.6	$3.00	$15.00	1.5倍
GPT-5.2	$5.00	$15.00	2.0倍（入力）
Claude Opus 4.6	$15.00	$75.00	7.5倍

Gemini 3.1 Proは、入力においてSonnet 4.6より33%安く、出力において20%安い、最も安価なフロンティアモデルです。

セッションあたりのコスト (入力10万 + 出力2万)

モデル	コスト
Gemini 3.1 Pro	$0.44
Claude Sonnet 4.6	$0.60
GPT-5.2	$0.80
Claude Opus 4.6	$3.00

その他のコスト最適化:

Batch mode (バッチモード): 50%割引 (セッションあたり$0.22)

Context caching (コンテキストキャッシュ): キャッシュされた入力読み取りは基本料金の10%

利用可能性

使用可能な場所

プラットフォーム	ステータス	モデルID
Geminiアプリ（一般消費者向け）	順次展開中	自動選択
Google AI Studio	現在利用可能	`gemini-3.1-pro-preview`
Vertex AI	現在利用可能	`gemini-3.1-pro-preview`
Gemini API	現在利用可能	`gemini-3.1-pro-preview`
Gemini CLI	現在利用可能	`gemini-3.1-pro-preview`
Antigravity	現在利用可能	自動選択
Android Studio	現在利用可能	自動選択
GitHub Copilot	パブリックプレビュー	選択可能
NotebookLM	Pro/Ultraサブスクライバー	自動選択

APIクイックスタート

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

カスタムツール・エンドポイント

Googleは、ツール性能を高めるための専用エンドポイントもリリースしました。

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

ファンクションコーリングやツールの使用に大きく依存するエージェントを構築する際に、このエンドポイントを使用してください。

これが意味すること

推論能力の競争が激化

13日間で3つのフロンティアモデルがリリースされました。

2月6日: Claude Opus 4.6 (Anthropic)

2月17日: Claude Sonnet 4.6 (Anthropic)

2月19日: Gemini 3.1 Pro (Google)

各モデルが異なる分野でリーダーシップを主張しています。モデルの勢力図は断片化しており、もはや単一のモデルがすべてを支配することはありません。

低価格で最高クラスの推論能力

Gemini 3.1 ProのARC-AGI-2スコア77.1%は、入手可能な最高の推論スコアを最低価格($2/$12)で提供するものです。新しい問題解決、抽象的推論、科学的分析を必要とするタスクにおいて、これは明快な選択肢となります。

コーディング能力の同等性

SWE-benchで80.6%を記録し（Opus 4.6の80.8%、Sonnet 4.6の79.6%と比較）、Gemini 3.1 Proは初めてコーディングにおいて競争力を持ちました。以前のGeminiモデルはこのベンチマークでClaudeに大きく遅れをとっていました。

欠けているピース：コンピュータ操作

Gemini 3.1 ProはOSWorld（コンピュータ操作）のベンチマークが公開されていません。Claude Sonnet 4.6はこの能力で72.5%とリードしています。ブラウザの自動化、フォーム入力、デスクトップ制御を含むワークフローの場合、依然としてClaudeが唯一の現実的な選択肢です。

製品を構築する開発者向け

実践的な影響：

最も安価な推論: セッションあたり$0.44（Sonnetは$0.60、GPT-5.2は$0.80）。

科学的・分析的タスクに最適: 94.3%のGPQA Diamondは利用可能な最高スコア。

コーディングでの競争力: 80.6%のSWE-benchでClaudeとの差を縮小。

マルチモーダルの優位性: ClaudeやGPTが対応していないネイティブな動画/音声処理。

プレビュー状態: まだGA（一般提供）ではなく、正式リリースまでにさらなる改善が期待されます。

AIで構築中ですか？ Y Build は開発用にお好みのAIツールと統合し、デプロイ、Demo Cut製品ビデオ、AI SEO、アナリティクスまで、コードから成長までのフルスタックをサポートします。無料で開始.

出典:

要約

Googleは2026年2月19日、Gemini 3.1 Pro（プレビュー版）をリリースしました。主な数値は以下の通りです。

ARC-AGI-2: 77.1% — Gemini 3 Pro (31.1%)の2倍以上であり、Opus 4.6 (68.8%)やGPT-5.2 (52.9%)を上回る
GPQA Diamond: 94.3% — 大学院レベルの科学において全モデルをリード
SWE-bench: 80.6% — コーディングにおいてOpus 4.6 (80.8%)に匹敵
価格: 100万トークンあたり$2/$12 — 最も安価なフロンティアモデル
100万トークンのコンテキスト — Gemini 3 Proから変更なし
Googleが評価した16のベンチマークのうち13で首位
現在プレビュー版が利用可能: AI Studio, Vertex AI, Gemini CLI, Geminiアプリ

Googleによる発表内容

ベンチマークの詳細

Gemini 3.1 Proがリードしている分野（16のベンチマーク中13）

ベンチマーク	テスト内容	Gemini 3.1 Pro	最良の競合他社
ARC-AGI-2	未知の推論	77.1%	Opus 4.6: 68.8%
GPQA Diamond	大学院レベルの科学	94.3%	GPT-5.2: 92.4%
BrowseComp	エージェントによるウェブ検索	85.9%	Opus 4.6: 84.0%
Terminal-Bench 2.0	ターミナルでのコーディング	68.5%	Opus 4.6: 65.4%
APEX-Agents	エージェント能力	33.5%	Opus 4.6: 29.8%
MCP Atlas	ツール利用	69.2%	—
t2-bench Telecom	特定ドメイン	99.3%	—
SWE-bench Verified	コーディング	80.6%	Opus 4.6: 80.8%
MRCR v2	長文コンテキスト	84.9%	Sonnet 4.6: 84.9% (同率)

競合他社が依然として優位な分野

ベンチマーク	テスト内容	勝者	Gemini 3.1 Pro
GDPval-AA (Elo)	事務作業	Sonnet 4.6: 1633	非公開
Terminal-Bench 2.0	高度なターミナルコーディング	GPT-5.3-Codex: 77.3%	68.5%
SWE-Bench Pro	高度なコーディング	GPT-5.3-Codex: 56.8%	非公開
OSWorld	コンピュータ操作	Sonnet 4.6: 72.5%	未実施

文脈から見る推論能力の飛躍

モデル	ARC-AGI-2	日付
Gemini 3 Pro	31.1%	2025年11月
GPT-5.2	52.9%	2025年12月
Claude Opus 4.6	68.8%	2026年2月
Gemini 3.1 Pro	77.1%	2026年2月

Gemini 3 Proからの変更点

1. Deep Thinkの統合

2. 劇的な推論能力の向上

数値がそれを物語っています：

ベンチマーク	Gemini 3 Pro	Gemini 3.1 Pro	改善率
ARC-AGI-2	31.1%	77.1%	+148%
GPQA Diamond	約88%	94.3%	+7%
APEX-Agents	18.4%	33.5%	+82%

3. エージェント性能の向上

4. マルチモーダルな強みの維持

価格

Gemini 3 Proと同じ価格で、実質的な無料アップグレードとなります。

コンテキストサイズ	入力（100万トークンあたり）	出力（100万トークンあたり）
≤20万トークン	$2.00	$12.00
>20万トークン	$4.00	$18.00

競合他社との比較

モデル	入力	出力	相対コスト
Gemini 3.1 Pro	$2.00	$12.00	1倍
Claude Sonnet 4.6	$3.00	$15.00	1.5倍
GPT-5.2	$5.00	$15.00	2.0倍（入力）
Claude Opus 4.6	$15.00	$75.00	7.5倍

Gemini 3.1 Proは、入力においてSonnet 4.6より33%安く、出力において20%安い、最も安価なフロンティアモデルです。

セッションあたりのコスト (入力10万 + 出力2万)

モデル	コスト
Gemini 3.1 Pro	$0.44
Claude Sonnet 4.6	$0.60
GPT-5.2	$0.80
Claude Opus 4.6	$3.00

その他のコスト最適化:

Batch mode (バッチモード): 50%割引 (セッションあたり$0.22)

Context caching (コンテキストキャッシュ): キャッシュされた入力読み取りは基本料金の10%

利用可能性

使用可能な場所

プラットフォーム	ステータス	モデルID
Geminiアプリ（一般消費者向け）	順次展開中	自動選択
Google AI Studio	現在利用可能	`gemini-3.1-pro-preview`
Vertex AI	現在利用可能	`gemini-3.1-pro-preview`
Gemini API	現在利用可能	`gemini-3.1-pro-preview`
Gemini CLI	現在利用可能	`gemini-3.1-pro-preview`
Antigravity	現在利用可能	自動選択
Android Studio	現在利用可能	自動選択
GitHub Copilot	パブリックプレビュー	選択可能
NotebookLM	Pro/Ultraサブスクライバー	自動選択

APIクイックスタート

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

カスタムツール・エンドポイント

Googleは、ツール性能を高めるための専用エンドポイントもリリースしました。

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

ファンクションコーリングやツールの使用に大きく依存するエージェントを構築する際に、このエンドポイントを使用してください。

これが意味すること

推論能力の競争が激化

13日間で3つのフロンティアモデルがリリースされました。

2月6日: Claude Opus 4.6 (Anthropic)

2月17日: Claude Sonnet 4.6 (Anthropic)

2月19日: Gemini 3.1 Pro (Google)

低価格で最高クラスの推論能力

コーディング能力の同等性

欠けているピース：コンピュータ操作

製品を構築する開発者向け

実践的な影響：

最も安価な推論: セッションあたり$0.44（Sonnetは$0.60、GPT-5.2は$0.80）。

科学的・分析的タスクに最適: 94.3%のGPQA Diamondは利用可能な最高スコア。

コーディングでの競争力: 80.6%のSWE-benchでClaudeとの差を縮小。

マルチモーダルの優位性: ClaudeやGPTが対応していないネイティブな動画/音声処理。

プレビュー状態: まだGA（一般提供）ではなく、正式リリースまでにさらなる改善が期待されます。

出典: