Claude Sonnet 4.6 : l'IA de niveau Opus au prix de Sonnet

TL;DR

Anthropic a lancé Claude Sonnet 4.6 le 17 février 2026. L'essentiel à retenir :

79,6 % SWE-bench — des performances quasi identiques à Opus 4.6 (80,8 %) sur du codage en conditions réelles.
72,5 % OSWorld — essentiellement à égalité avec Opus 4.6 (72,7 %) sur l'utilisation de l'ordinateur (computer use), soit près du double de GPT-5.2 (38,2 %).
3 $ / 15 $ par million de tokens — inchangé par rapport à Sonnet 4.5, soit 5 fois moins cher qu'Opus.
Fenêtre de contexte de 1M de tokens (bêta) — contre 200K auparavant.
Désormais le modèle par défaut pour tous les utilisateurs Claude Free et Pro.

Les développeurs ont préféré Sonnet 4.6 à Sonnet 4.5 70 % du temps dans Claude Code, et l'ont même préféré à Opus 4.5 59 % du temps.

Ce qu'Anthropic a annoncé

Claude Sonnet 4.6 est la deuxième sortie majeure de modèle d'Anthropic en moins de deux semaines (après Opus 4.6 le 6 février). Dans leur article de blog, Anthropic le décrit comme « une mise à niveau complète des capacités du modèle en matière de codage, d'utilisation de l'ordinateur, de raisonnement sur contexte long, de planification d'agents, de travail de connaissance et de design ».

L'affirmation centrale : « Des performances qui nécessitaient auparavant de faire appel à un modèle de classe Opus — y compris pour des tâches de bureau concrètes et économiquement précieuses — sont désormais disponibles avec Sonnet 4.6. »

C'est une déclaration significative. Anthropic affirme concrètement que : pour la plupart des charges de travail en production, vous n'avez plus besoin de payer pour Opus.

Analyse complète des benchmarks

Là où Sonnet 4.6 égale ou dépasse Opus

Benchmark	Ce qu'il teste	Sonnet 4.6	Opus 4.6	GPT-5.2
SWE-bench Verified	Codage réel	79,6 %	80,8 %	80,0 %
OSWorld-Verified	Utilisation de l'ordinateur	72,5 %	72,7 %	38,2 %
GDPval-AA (Elo)	Tâches de bureau	1633	1606	1462
Finance Agent v1.1	Analyse financière	63,3 %	60,1 %	59,0 %
OfficeQA	Compréhension de documents	Égale Opus	—	—

Sonnet 4.6 est en fait en tête sur les tâches de bureau et l'analyse financière — deux catégories économiquement cruciales.

Là où Opus 4.6 conserve l'avantage

Benchmark	Ce qu'il teste	Opus 4.6	Sonnet 4.6	Écart
Terminal-Bench 2.0	Codage agentique via terminal	65,4 %	59,1 %	6,3 %
BrowseComp	Recherche web agentique	84,0 %	74,7 %	9,3 %
ARC-AGI-2	Résolution de problèmes inédits	68,8 %	58,3 %	10,5 %
GPQA Diamond	Raisonnement niveau universitaire	91,3 %	89,9 %	1,4 %
MRCR v2 (8-needle 1M)	Raisonnement contexte long	76,0 %	—	—

Le schéma est clair : Opus l'emporte sur les tâches qui exigent le raisonnement le plus profond et le plus novateur — refactorisation à l'échelle d'une base de code, recherche en plusieurs étapes et problèmes jamais rencontrés par le modèle. Sonnet gagne sur les tâches prêtes pour la production et sensibles à la vitesse.

Utilisation de l'ordinateur : l'amélioration phare

Les chiffres concernant l'utilisation de l'ordinateur (computer use) méritent une attention particulière :

Modèle	Score OSWorld	Chronologie
Sonnet 3.5 (Oct 2024)	14,9 %	Premier lancement
Sonnet 4.5	61,4 %	+46,5 %
Sonnet 4.6	72,5 %	+11,1 %
Opus 4.6	72,7 %	Le plafond
GPT-5.2	38,2 %	Pour comparaison

En 16 mois, Sonnet est passé de 14,9 % à 72,5 % sur l'utilisation de l'ordinateur — une amélioration de 4,9x. Jamie Cuffe, PDG de Pace (une entreprise de technologie d'assurance), a rapporté que Sonnet 4.6 a atteint 94 % sur leur benchmark interne d'utilisation de l'ordinateur : « Il raisonne à travers les échecs et s'auto-corrige d'une manière que nous n'avions jamais vue auparavant. »

Quoi de neuf par rapport à Sonnet 4.5

1. Fenêtre de contexte de 1M de tokens (Bêta)

La fenêtre de contexte passe de 200K à 1 million de tokens. Cela signifie que des bases de code entières, de longs documents juridiques ou des heures d'historique de conversation tiennent dans un seul prompt.

Une nouvelle fonctionnalité de compaction de contexte (également en bêta) résume automatiquement les anciens segments de conversation, étendant ainsi encore plus le contexte utilisable.

2. Meilleur respect des instructions, moins d'hallucinations

C'est ce que les développeurs ont remarqué en premier. Lors des tests Claude Code :

70 % ont préféré Sonnet 4.6 à Sonnet 4.5.
59 % l'ont même préféré à Opus 4.5 (le modèle de pointe de novembre 2025).

Améliorations spécifiques citées :

Lit le code existant avant de le modifier (au lieu de deviner).
Consolide la logique au lieu de la dupliquer.
Moins de fausses affirmations de succès (« J'ai corrigé le bug » alors que ce n'est pas le cas).
Moins de sur-ingénierie — n'ajoute pas d'abstractions inutiles.
Meilleur suivi sur les tâches en plusieurs étapes.

Le cofondateur de Cursor l'a qualifié d'« amélioration notable par rapport à Sonnet 4.5 sur toute la ligne, y compris pour les tâches à long horizon et les problèmes plus difficiles ». GitHub a signalé des « taux de résolution élevés et le type de cohérence dont les développeurs ont besoin » sur des corrections complexes multi-référentiels.

3. L'utilisation de l'ordinateur devient prête pour la production

Le bond de 61,4 % à 72,5 % sur OSWorld franchit un seuil. Les utilisateurs décrivent une « capacité de niveau humain pour des tâches comme la navigation dans des feuilles de calcul complexes ou le remplissage de formulaires web en plusieurs étapes ».

Sonnet 4.6 s'est également considérablement amélioré sur la résistance à l'injection de prompts pour l'utilisation de l'ordinateur — atteignant les niveaux d'Opus 4.6. C'est critique pour tout agent qui navigue sur le web ou traite des entrées non fiables.

4. Extended Thinking + Adaptive Thinking

Les deux sont pris en charge, permettant au modèle d'allouer plus de calcul aux problèmes difficiles. Mais il est à noter que Sonnet 4.6 est performant même sans l'activation de l'Extended Thinking — le modèle de base est fondamentalement meilleur.

5. Mise à niveau de l'offre gratuite

Les utilisateurs gratuits de Claude bénéficient désormais de Sonnet 4.6 par défaut, plus :

Capacités de création de fichiers.

Connecteurs (intégrations avec des données externes).

Skills (instructions réutilisables).

Compaction de contexte.

Il s'agit de l'offre d'IA gratuite la plus performante disponible chez tous les grands fournisseurs.

6. Connecteurs MCP dans Excel

Claude dans Excel prend désormais en charge les connecteurs pour S&P Global, LSEG, Daloopa, PitchBook, Moody's et FactSet — permettant d'importer des données financières en direct directement dans les feuilles de calcul.

Tarification

Pas de changement de prix par rapport à Sonnet 4.5 :

Forfait	Prix
claude.ai Free	0 $ (Sonnet 4.6 par défaut, limites d'utilisation)
claude.ai Pro	20 $/mois (limites plus élevées, accès à Opus)
API input	3 $ par million de tokens
API output	15 $ par million de tokens

À titre de comparaison :

API Opus 4.6 : 15 $ / 75 $ par million de tokens (5x plus cher).

API GPT-5.2 : 5 $ / 15 $ par million de tokens (1,7x plus cher en entrée).

API Gemini 3 Pro : 7 $ / 21 $ par million de tokens (2,3x plus cher en entrée).

Coût par session Claude Code

Pour une session de codage typique (100K tokens en entrée + 20K tokens en sortie) :

Modèle	Coût par session
Sonnet 4.6	0,60 $
GPT-5.2	0,80 $
Opus 4.6	3,00 $

Une équipe effectuant 100 sessions d'agent par jour économise environ 240 $/jour en utilisant Sonnet 4.6 au lieu d'Opus.

Comment y accéder

claude.ai

Déjà le modèle par défaut. Ouvrez claude.ai → vous utilisez Sonnet 4.6.

Claude Code

bash

claude  # Sonnet 4.6 est désormais le défaut
claude --model claude-sonnet-4-6-20250217  # sélection explicite

API

ID du modèle : claude-sonnet-4-6-20250217

python

import anthropic

client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-sonnet-4-6-20250217",
    max_tokens=4096,
    messages=[{"role": "user", "content": "Your prompt here"}]
)

Plateformes Cloud

Disponible sur Amazon Bedrock et Google Cloud Vertex AI dès le premier jour.

Contexte de l'industrie

Sonnet 4.6 est la deuxième sortie majeure d'Anthropic en 11 jours (après Opus 4.6 le 6 février). CNBC a décrit ce rythme comme la « poursuite d'une vitesse effrénée dans les sorties de modèles d'IA ». VentureBeat l'a qualifié d'« événement de tarification sismique pour l'industrie de l'IA ».

La tendance générale : le seuil de performance minimal s'élève. Ce qui nécessitait un modèle phare à 15 $/75 $ il y a six mois est désormais livré à 3 $/15 $. Pour les créateurs de produits d'IA, cela signifie :

Les fonctionnalités d'IA coûtent 5 fois moins cher à exécuter.
Les agents d'utilisation de l'ordinateur sont économiquement viables à grande échelle.
Le modèle n'est plus le goulot d'étranglement — c'est le déploiement qui l'est.

Vous construisez avec Claude Sonnet 4.6 ? Y Build s'intègre à Claude Code pour le développement assisté par IA, puis gère le déploiement, les vidéos produit Demo Cut, le SEO par IA et les analyses — la stack complète du code à la croissance. Commencer gratuitement.

Sources :