Grok 4.20 レビュー：xAIのマルチエージェントモデル (2026年)

TL;DR

Grok 4.20	GPT-5.4	Claude Opus 4.6
コーディング (SWE-bench Verified)	~72%	57.7% (Pro)	80.8%
科学 (GPQA Diamond)	83–88%	92.8%	91.3%
推論 (ARC-AGI-2)	15.9%	—	68.8%
正直度 (Omniscience)	78%	—	—
コンピュータ操作 (OSWorld)	—	75%	72.5%
コンテキストウィンドウ	2M	400K	1M
入力価格	$2/M	$2.50/M	$15/M
出力価格	$6/M	$15/M	$75/M
アーキテクチャ	4エージェント MoE (~3T)	Dense (非公開)	Dense (非公開)

クイック判断：

大規模コンテキストを持つ最も安価なフロンティアモデル → Grok 4.20
最高のコーディング能力 + エージェントの安全性 → Claude Opus 4.6
最高のコンピュータ操作 + 自動化 → GPT-5.4
最も低いハルシネーション率 → Grok 4.20

Grok 4.20とは？

Grok 4.20はxAIのフラッグシップモデルであり、2026年2月17日にパブリックベータが開始され、2026年3月に一般公開（GA）に達しました。これはGrok 3やGrok 4.1と同じ規模である約3兆パラメータのMixture-of-Experts（MoE）バックボーン上に構築されていますが、その上に根本的に新しいマルチエージェントアーキテクチャがレイヤーとして重ねられています。

最大の目玉機能は、十分に複雑なクエリのすべてが、最終的な回答を出す前に互いに議論し、ファクトチェックを行い、相互検証する4つの専門AIエージェントにルーティングされることです。これはユーザー自身がオーケストレーションするフレームワークではありません。条件を満たすすべてのリクエストに対して、モデル内部でネイティブに実行されます。

その結果、ハルシネーション（幻覚）がGrok 4.1と比較して65%減少し、約12%から4.2%にまで低下しました。

4エージェントアーキテクチャはどのように機能するか？

Grok 4.20のマルチエージェントシステムは、共有されたMoEバックボーン上で動作する4つのエージェントで構成されています。

エージェント	役割	専門分野
Grok (Captain)	調整役	タスクの分解、対立の解消、最終的な統合
Harper	リサーチ	リアルタイムのウェブ検索、X Firehoseデータの取得、事実の根拠付け
Benjamin	論理	数学的推論、コード検証、論理的一貫性
Lucas	クリエイティブ	発散的思考、バイアス検出、欠落している視点の特定

内部フロー

分解 (Decomposition): Grok/Captainがプロンプトを分析し、サブタスクに分割して、3つの専門エージェントすべてに同時にルーティングします。
並行分析 (Parallel analysis): 4つすべてのエージェントが、完全なコンテキストとそれぞれの専門的な視点を受け取り、逐次的ではなく並行して初期分析を生成します。
内部ディベート (Internal debate): エージェントは構造化されたピアレビュー（査読）ラウンドを行います。Harperは事実に関する主張をフラグ立てし、リアルタイムデータに基づいて根拠を示します。Benjaminは論理的な整合性と計算をチェックします。Lucasはバイアスや過度に硬直した解決策を見つけ出します。
統合 (Synthesis): Grok/Captainが意見の相違を解決し、洞察をマージして、最終的な出力を提供します。

この内部ピアレビュー・ループこそが、記録的に低いハルシネーション率を実現している要因です。あるエージェントが誤った主張を捏造しても、他のエージェントがユーザーに届く前にそれをキャッチします。

ベンチマーク：Grok 4.20の勝敗ポイント

正直度：業界をリード

Grok 4.20は、Artificial AnalysisのOmniscienceテストで78%の非ハルシネーション率を達成しました。これはテストされたすべてのモデルの中で最高値です。答えがわからない場合、回答を捏造する代わりに78%の確率で「わかりません」と答えます。

生の知能よりも信頼性が重要視されるプロダクションアプリケーションにとって、これは表の中で最も重要な数字です。

コーディング：競争力はあるがトップではない

SWE-bench Verified（現実世界のソフトウェアエンジニアリング）において、Grok 4.20は使用されるスキャフォールディングに応じて約72〜75%のスコアを記録しました。これは堅実な数字ですが、80.8%のClaude Opus 4.6や、より難易度の高いSWE-bench Proバリアントで57.7%を記録した GPT-5.4 Proには及びません。

日常的なコーディングタスクにおいてGrok 4.20は有能です。しかし、複雑な複数ファイルにわたるリファクタリングやシステムレベルのデバッグでは、依然としてClaudeがリードしています。

科学と推論：中位グループ

GPQA Diamond（大学院レベルの科学）では、Grok 4.20は83〜88%をスコアしました。GPT-5.4が92.8%でトップ、Opus 4.6が91.3%と続きます。ARC-AGI-2（新規の抽象的推論）では、Grok 4.20は15.9%を記録しました。前モデルからは改善されていますが、68.8%を記録したOpus 4.6には大きく引き離されています。

知能インデックス：トレードオフ

Artificial Analysisは、Grok 4.20の知能インデックス（Intelligence Index）を48スコアで8位にランク付けしており、57スコアのGemini 3.1 ProやGPT-5.4の後塵を拝しています。xAIは、生のベンチマークでの支配力よりも信頼性を優先して最適化したようです。このトレードオフに価値があるかどうかは、完全にユースケースに依存します。

価格設定：格安のフロンティアモデル？

Grok 4.20の標準API価格：

入力	出力
Grok 4.20	$2.00/M tokens	$6.00/M tokens
Grok 4.20 Multi-Agent	$2.00/M tokens	$6.00/M tokens
GPT-5.4	$2.50/M tokens	$15.00/M tokens
Claude Opus 4.6	$15.00/M tokens	$75.00/M tokens
Claude Sonnet 4.6	$3.00/M tokens	$15.00/M tokens

100万トークンあたり$2/$6という価格設定により、Grok 4.20は利用可能なフロンティアモデルの中で最も安価です。入力価格はOpus 4.6の7.5倍安く、出力価格は12.5倍安くなっています。GPT-5.4と比較しても、入力で20%、出力で60%安価です。

マルチエージェント版も同じ価格で提供されており、4エージェントによるディベートシステムに追加費用はかかりません。

APIモデル識別子

grok-4.20                    # 標準（デフォルトで推論が有効）
grok-4.20-non-reasoning      # 高速、Chain-of-thoughtなし
grok-4.20-multi-agent        # 明示的な4エージェント・オーケストレーション

ベースURL: https://api.x.ai/v1

推論バジェットの制御

Grok 4.20は thinking_budget パラメータをサポートしており、リクエストごとに推論の深さを制御できます。支払うのは使用した推論トークン分のみです。

python

import openai

client = openai.OpenAI(
    base_url="https://api.x.ai/v1",
    api_key="YOUR_XAI_API_KEY"
)

response = client.chat.completions.create(
    model="grok-4.20",
    messages=[{"role": "user", "content": "Explain the multi-agent architecture of Grok 4.20"}],
    extra_body={"thinking_budget": 4096}
)

200万トークンのコンテキストウィンドウ：現実世界への影響

Grok 4.20は、現在のフロンティアモデルの中で最大となる200万トークンのコンテキストウィンドウを備えています。比較：

モデル	コンテキストウィンドウ
Grok 4.20	2,000,000
Gemini 3.1 Pro	1,000,000
Claude Opus 4.6	1,000,000
GPT-5.4	400,000

これは、大規模なコードベース、膨大な法務文書、複数ファイルの分析、または長期間の研究セッションを伴うユースケースにおいて重要です。1つのコンテキストウィンドウに、およそ50,000行のコードを収めることができます。

Grok 4.20はどのような人に向いているか？

最適なケース

予算を抑えた大量のAPIワークロード。 $2/$6という価格により、1日に数千回のリクエストを実行する場合、代替案よりも大幅に安価になります。
低いハルシネーション率が求められるアプリケーション。 カスタマーサポート用のチャットボット、医療情報、法務リサーチなど、「自信満々な誤答」が「わかりません」という回答よりも悪い影響を及ぼすすべての場所。
リアルタイムデータ分析。 HarperがXやウェブデータにライブアクセスできるため、Grok 4.20は市場のセンチメント、ニュース監視、トレンド分析に強みを発揮します。
長いコンテキストを必要とするタスク。 2Mのコンテキストウィンドウにより、コードベース全体や文書コレクション全体を一度に処理できます。

向いていないケース

最先端のコーディング。 Claude Opus 4.6は、SWE-benchにおいて依然として有意な差をつけてリードしています。
複雑な抽象的推論。 ARC-AGI-2の差（15.9% vs 68.8%）は、未知の問題解決を必要とするタスクにおいて顕著です。
コンピュータ操作とGUI自動化。 GPT-5.4はOSWorldで75%を記録し、人間のエキスパートさえも凌駕してリードしています。
最大の生の知能。 科学や推論のベンチマークで最高のスコアが必要な場合、GPT-5.4やGemini 3.1 Proが依然として先行しています。

よくある質問

Grok 4.20のパラメータ数は？

Grok 4.20は、総パラメータ数約3兆のMixture-of-Experts（MoE）アーキテクチャに基づいています。推論パスごとにすべてのパラメータがアクティブになるわけではありません。MoE設計により、各トークンをエキスパートのサブセットにルーティングすることで、膨大な総パラメータ数にもかかわらず計算コストを管理可能なレベルに抑えています。

Grok 4.20はGPT-5.4より優れていますか？

何を必要とするかによります。Grok 4.20は価格（$2/$6 vs $2.50/$15）、コンテキストウィンドウ（2M vs 400K）、正直度（78%の非ハルシネーション率）で勝っています。GPT-5.4は科学ベンチマーク（GPQA 92.8% vs 83–88%）、コンピュータ操作（OSWorld 75%）、および生の知能インデックススコアで勝っています。信頼性を優先する予算重視の商用デプロイメントには、Grok 4.20が強力な候補となります。

Grok 4.20はClaude Opus 4.6より優れていますか？

Claude Opus 4.6は、コーディング（80.8% vs ~72% SWE-bench）、抽象的推論（68.8% vs 15.9% ARC-AGI-2）、科学（91.3% vs 83–88% GPQA）においてGrok 4.20を大幅に上回っています。しかし、Grok 4.20は圧倒的に安価であり（$2/$6 vs $15/$75）、2倍のコンテキストウィンドウ（2M vs 1M）を持っています。複雑なタスクで最高の品質が必要ならOpusが勝ります。コストを抑えつつ有能なフロンティアモデルが必要なら、Grok 4.20が魅力的です。

マルチエージェントシステムとは何ですか？追加料金はかかりますか？

マルチエージェントシステムは、4つの専門エージェント（Grok, Harper, Benjamin, Lucas）を介してクエリをルーティングし、回答前に議論と相互検証を行う仕組みです。これはモデルにネイティブに組み込まれており、追加料金はかかりません。標準バリアントとマルチエージェントバリアントは、100万トークンあたり$2/$6という同一の価格設定を共有しています。

Grok 4.20のAPIモデル識別子は何ですか？

主要なモデルIDは grok-4.20 です。バリアントには、Chain-of-thoughtなしで高速に回答する grok-4.20-non-reasoning や、明示的なマルチエージェント・オーケストレーションを行う grok-4.20-multi-agent があります。APIベースURLは https://api.x.ai/v1 です。

Grok 4.20はいつリリースされましたか？

Grok 4.20は2026年2月17日にパブリックベータが開始され、2026年3月3日にBeta 2アップデート（モデルバージョン 0309）が実施されました。一般公開（GA）は2026年3月に行われました。

結論

Grok 4.20は、現在利用可能なモデルの中で最も「賢い」モデルではありません。その称号は、ベンチマークにもよりますがGPT-5.4やClaude Opus 4.6に譲ります。しかし、Grok 4.20が提供するのはユニークな組み合わせです。すなわち、フロンティアクラスの能力、業界をリードする正直度、最大のコンテキストウィンドウ、そしてトップティアモデルの中で最低の価格です。4エージェントアーキテクチャは真に斬新であり、事実の正確性において測定可能な改善をもたらしています。

推論ベンチマークの限界に挑むことよりも、コスト、信頼性、およびコンテキストの長さが重要となるプロダクションアプリケーションを構築している開発者にとって、Grok 4.20は真剣に検討すべき価値があります。

Y Buildでは、Grok 4.20、Claude、GPTを含む複数のフロンティアモデルを統合しているため、各タスクを最適なモデルにルーティングできます。顧客向け機能にGrok 4.20のコストパフォーマンスの高い正直さが必要な場合でも、開発ワークフローにOpus 4.6のコーディング精度が必要な場合でも、適切なツールは仕事の内容次第です。