Claude Sonnet 4.6: Sonnetの価格でOpus級のAI性能を実現

TL;DR

Anthropicは2026年2月17日に Claude Sonnet 4.6 をリリースしました。主なポイントは以下の通りです。

79.6% SWE-bench — 実際のコーディングにおいて Opus 4.6 (80.8%) とほぼ同等の性能
72.5% OSWorld — コンピュータ操作（computer use）において Opus 4.6 (72.7%) と実質的に並び、GPT-5.2 (38.2%) の約2倍のスコア
100万トークンあたり $3/$15 — Sonnet 4.5 から据え置き。Opus より5倍安価
1Mトークンのコンテキストウィンドウ (ベータ) — 200Kから拡大
本日よりすべての Free および Pro ユーザーのデフォルトモデルに

開発者は Claude Code において、70%の割合で Sonnet 4.5 よりも Sonnet 4.6 を好み、Opus 4.5 に対しても 59%の割合で Sonnet 4.6 を選択しました。

Anthropicの発表内容

Claude Sonnet 4.6 は、Anthropicにとって（2月6日の Opus 4.6 に続く）2週間足らずで2つ目の主要モデルリリースとなります。彼らのブログポストでは、Sonnet 4.6 を「コーディング、コンピュータ操作、長文コンテキストの推論、エージェントの計画、ナレッジワーク、デザインにわたるモデルスキルの全面的なアップグレード」と説明しています。

核心となる主張は次の通りです。「これまで Opus クラスのモデルが必要だったパフォーマンス（経済的価値の高い実務タスクを含む）が、Sonnet 4.6 で利用可能になった」

これは極めて重要な宣言です。Anthropicは実質的に、ほとんどの本番環境のワークロードにおいて、もはや Opus に高い費用を払う必要はないと言っているのです。

ベンチマークの詳細比較

Sonnet 4.6 が Opus に匹敵、または上回る項目

ベンチマーク	テスト内容	Sonnet 4.6	Opus 4.6	GPT-5.2
SWE-bench Verified	実際のコーディング	79.6%	80.8%	80.0%
OSWorld-Verified	コンピュータ操作	72.5%	72.7%	38.2%
GDPval-AA (Elo)	オフィス業務タスク	1633	1606	1462
Finance Agent v1.1	財務分析	63.3%	60.1%	59.0%
OfficeQA	文書理解	Opusと同等	—	—

Sonnet 4.6 は、経済的に重要なカテゴリーであるオフィス業務タスクと財務分析において、実際に首位に立っています。

Opus 4.6 がリードを維持している項目

ベンチマーク	テスト内容	Opus 4.6	Sonnet 4.6	差
Terminal-Bench 2.0	エージェントによるターミナル操作	65.4%	59.1%	6.3%
BrowseComp	エージェントによるWeb検索	84.0%	74.7%	9.3%
ARC-AGI-2	未知の問題解決	68.8%	58.3%	10.5%
GPQA Diamond	大学院レベルの推論	91.3%	89.9%	1.4%
MRCR v2 (8-needle 1M)	長文コンテキスト推論	76.0%	—	—

パターンは明確です。Opus は、コードベース規模のリファクタリング、多段階のリサーチ、モデルがこれまでに見たことのない問題など、最も深く斬新な推論を必要とするタスクで勝利します。一方、Sonnet は速度が重視される本番環境レベルのタスクで勝利します。

Computer Use：目覚ましい進化

コンピュータ操作（computer use）の数値は特筆に値します。

モデル	OSWorld スコア	時期
Sonnet 3.5 (2024年10月)	14.9%	初回ローンチ
Sonnet 4.5	61.4%	+46.5%
Sonnet 4.6	72.5%	+11.1%
Opus 4.6	72.7%	最高値
GPT-5.2	38.2%	比較用

わずか16ヶ月の間で、Sonnet のコンピュータ操作能力は 14.9% から 72.5% へと、4.9倍の向上を遂げました。保険テック企業 Pace の CEO である Jamie Cuffe 氏は、Sonnet 4.6 が社内のコンピュータ操作ベンチマークで 94% を記録したと報告しています。「失敗から推論し、これまでに見たことのない方法で自己修正を行います」

Sonnet 4.5 からの新機能・改善点

1. 100万トークンのコンテキストウィンドウ (ベータ)

コンテキストウィンドウが 200K から 100万トークンに拡大されました。これにより、コードベース全体、膨大な法的文書、あるいは数時間にわたる会話履歴を一つのプロンプトに収めることができます。

また、新しいコンテキスト・コンパクション機能（これもベータ版）により、古い会話セグメントを自動的に要約し、実質的なコンテキスト利用範囲をさらに拡張します。

2. 指示への準拠向上とハルシネーションの低減

これは開発者が最初に気づいた点です。Claude Code のテストにおいて：

70% が Sonnet 4.5 よりも Sonnet 4.6 を選択
59% が Opus 4.5（2025年11月の最先端モデル）よりも好ましいと回答

具体的に挙げられた改善点は以下の通りです。

修正前に（推測するのではなく）既存のコードを読み取る
ロジックを重複させるのではなく統合する
偽の成功報告（修正できていないのに「バグを直しました」と言う）の減少
過剰なエンジニアリングの抑制 — 不必要な抽象化を追加しない
多段階タスクにおける遂行能力の向上

Cursor の共同創設者は、「長期的なタスクやより困難な問題を含め、Sonnet 4.5 と比較して全面的に顕著な改善が見られる」と述べています。GitHub は、複雑なコードベース横断の修正において「強力な解決率と、開発者が求める一貫性」が得られたと報告しました。

3. 実用レベルに達した Computer Use

OSWorld で 61.4% から 72.5% への上昇は、一つの閾値を超えたことを意味します。ユーザーは「複雑なスプレッドシートの操作や多段階のWebフォームへの入力において、人間レベルの能力」と表現しています。

また、Sonnet 4.6 はコンピュータ操作におけるプロンプトインジェクション耐性も大幅に改善され、Opus 4.6 レベルの性能を発揮しています。これは、Webを閲覧したり信頼できない入力を処理したりするエージェントにとって極めて重要です。

4. Extended Thinking と Adaptive Thinking

両方の機能がサポートされており、より困難な問題に対してモデルが計算リソースをより多く割り当てることが可能です。特筆すべきは、Sonnet 4.6 は Extended Thinking（拡張思考）を有効にせずとも、ベースモデル自体が根本的に優れたパフォーマンスを発揮する点です。

5. 無料枠のアップグレード

無料ユーザーもデフォルトで Sonnet 4.6 を利用できるようになり、さらに以下の機能が提供されます。

ファイル作成機能

コネクタ（外部データとの連携）

スキル（再利用可能な指示）

コンテキスト・コンパクション

これは、主要なプロバイダーが提供する無料の AI 枠の中で最も強力なものです。

6. Excel での MCP コネクタ

Excel 版 Claude が S&P Global、LSEG、Daloopa、PitchBook、Moody's、FactSet のコネクタをサポートし、ライブの財務データをスプレッドシートに直接取り込めるようになりました。

価格設定

Sonnet 4.5 からの価格変更はありません。

プラン	価格
claude.ai Free	$0 (Sonnet 4.6 デフォルト、利用制限あり)
claude.ai Pro	$20/月 (高い制限、Opus へのアクセス)
API 入力	100万トークンあたり $3
API 出力	100万トークンあたり $15

比較対象：

Opus 4.6 API: 100万トークンあたり $15/$75 (5倍)

GPT-5.2 API: 100万トークンあたり $5/$15 (入力が1.7倍)

Gemini 3 Pro API: 100万トークンあたり $7/$21 (入力が2.3倍)

Claude Code セッションあたりのコスト

典型的なコーディングセッション（入力 100K + 出力 20K トークン）の場合：

モデル	セッションあたりのコスト
Sonnet 4.6	$0.60
GPT-5.2	$0.80
Opus 4.6	$3.00

1日100回の平均的なエージェントセッションを実行するチームは、Opus の代わりに Sonnet 4.6 を使用することで、1日あたり約240ドルの節約になります。

アクセス方法

claude.ai

すでにデフォルトになっています。claude.ai を開けば、Sonnet 4.6 を使用していることになります。

Claude Code

bash

claude  # Sonnet 4.6 がデフォルトになっています
claude --model claude-sonnet-4-6-20250217  # 明示的な選択

API

モデル ID: claude-sonnet-4-6-20250217

python

import anthropic

client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-sonnet-4-6-20250217",
    max_tokens=4096,
    messages=[{"role": "user", "content": "Your prompt here"}]
)

クラウドプラットフォーム

Amazon Bedrock および Google Cloud Vertex AI で初日から利用可能です。

業界の背景

Sonnet 4.6 は、（2月6日の Opus 4.6 に続く）11日間で2つ目の主要リリースです。CNBC はこのスピードを「AI モデルリリースの猛烈な速さが続いている」と表現しました。VentureBeat は「AI 業界における激震レベルの価格改定イベント」と呼んでいます。

より広範なトレンドとして、パフォーマンスの底上げが進んでいます。半年前には $15/$75 のフラッグシップモデルが必要だった性能が、今や $3/$15 で提供されています。AI プロダクトの開発者にとって、これは以下のことを意味します。

AI 機能の実行コストが 5分の1 に低下
コンピュータ操作エージェントが大規模に展開しても経済的に見合うようになる
モデルがもはやボトルネックではなく、製品をリリースする速度が重要になる

Claude Sonnet 4.6 で開発をお考えですか？ Y Build は Claude Code と連携して AI 支援開発を実現し、デプロイ、Demo Cut プロダクトビデオ、AI SEO、分析まで、コードから成長までのフルスタックをサポートします。無料で開始

出典: