Claude Sonnet 4.6: AI klasy Opus w cenie Sonnet

TL;DR

Anthropic wydało Claude Sonnet 4.6 w dniu 17 lutego 2026 roku. Kluczowe wnioski:

79.6% SWE-bench — wynik niemal identyczny jak Opus 4.6 (80.8%) w kodowaniu w rzeczywistych warunkach
72.5% OSWorld — zasadniczo remis z Opus 4.6 (72.7%) w korzystaniu z komputera (computer use), prawie dwukrotnie lepiej niż GPT-5.2 (38.2%)
$3/$15 za milion tokenów — cena bez zmian w stosunku do Sonnet 4.5, 5x taniej niż Opus
Okno kontekstowe 1M tokenów (beta) — wzrost z 200K
Teraz jest to domyślny model dla wszystkich darmowych i płatnych użytkowników Claude

Programiści woleli Sonnet 4.6 od Sonnet 4.5 w 70% przypadków w Claude Code, a nawet preferowali go nad Opus 4.5 w 59% przypadków.

Co ogłosiło Anthropic

Claude Sonnet 4.6 to drugie duże wydanie modelu Anthropic w ciągu niecałych dwóch tygodni (po Opus 4.6 z 6 lutego). W swoim wpisie na blogu, Anthropic opisuje go jako „pełną aktualizację umiejętności modelu w zakresie kodowania, korzystania z komputera (computer use), wnioskowania z długim kontekstem, planowania agentowego, pracy umysłowej i projektowania”.

Główne twierdzenie: „Wydajność, która wcześniej wymagała sięgnięcia po model klasy Opus — w tym w rzeczywistych, wartościowych ekonomicznie zadaniach biurowych — jest teraz dostępna w Sonnet 4.6”.

To znaczące oświadczenie. Anthropic w rzeczywistości mówi: w przypadku większości zadań produkcyjnych nie musisz już płacić za model Opus.

Pełne zestawienie benchmarków

Gdzie Sonnet 4.6 dorównuje lub wygrywa z Opus

Benchmark	Co testuje	Sonnet 4.6	Opus 4.6	GPT-5.2
SWE-bench Verified	Kodowanie w rzeczywistych warunkach	79.6%	80.8%	80.0%
OSWorld-Verified	Korzystanie z komputera (computer use)	72.5%	72.7%	38.2%
GDPval-AA (Elo)	Zadania biurowe	1633	1606	1462
Finance Agent v1.1	Analiza finansowa	63.3%	60.1%	59.0%
OfficeQA	Rozumienie dokumentów	Dorównuje Opus	—	—

Sonnet 4.6 w rzeczywistości prowadzi w zadaniach biurowych i analizie finansowej — dwóch kategoriach o istotnym znaczeniu ekonomicznym.

Gdzie Opus 4.6 utrzymuje przewagę

Benchmark	Co testuje	Opus 4.6	Sonnet 4.6	Różnica
Terminal-Bench 2.0	Agentowe kodowanie w terminalu	65.4%	59.1%	6.3%
BrowseComp	Agentowe przeszukiwanie sieci	84.0%	74.7%	9.3%
ARC-AGI-2	Rozwiązywanie nowych problemów	68.8%	58.3%	10.5%
GPQA Diamond	Wnioskowanie na poziomie akademickim	91.3%	89.9%	1.4%
MRCR v2 (8-needle 1M)	Wnioskowanie z długim kontekstem	76.0%	—	—

Wzorzec jest jasny: Opus wygrywa w zadaniach wymagających najgłębszego, najbardziej nowatorskiego wnioskowania — refaktoryzacji na skalę całego repozytorium, wieloetapowego researchu i problemów, których model wcześniej nie widział. Sonnet wygrywa w zadaniach gotowych do wdrożenia produkcyjnego, gdzie liczy się szybkość.

Computer Use: Wyraźna poprawa

Wyniki w zakresie korzystania z komputera zasługują na szczególną uwagę:

Model	Wynik OSWorld	Oś czasu
Sonnet 3.5 (Paź 2024)	14.9%	Premiera
Sonnet 4.5	61.4%	+46.5%
Sonnet 4.6	72.5%	+11.1%
Opus 4.6	72.7%	Maksimum
GPT-5.2	38.2%	Dla porównania

W ciągu 16 miesięcy Sonnet przeszedł z 14.9% do 72.5% w OSWorld — to 4.9-krotna poprawa. Jamie Cuffe, CEO Pace (firmy z branży insurtech), poinformował, że Sonnet 4.6 osiągnął 94% w ich wewnętrznym benchmarku computer use: „Analizuje przyczyny niepowodzeń i samoczynnie koryguje błędy w sposób, którego wcześniej nie widzieliśmy”.

Co nowego w porównaniu do Sonnet 4.5

1. Okno kontekstowe 1M tokenów (Beta)

Okno kontekstowe rozszerza się z 200K do 1 miliona tokenów. Oznacza to, że całe bazy kodu, obszerne dokumenty prawne lub wielogodzinna historia rozmów mieszczą się w jednym prompcie.

Nowa funkcja context compaction (również w fazie beta) automatycznie podsumowuje starsze segmenty rozmowy, skutecznie jeszcze bardziej rozszerzając użyteczny kontekst.

2. Lepsze przestrzeganie instrukcji, mniej halucynacji

To programiści zauważyli jako pierwsi. W testach Claude Code:

70% wolało Sonnet 4.6 od Sonnet 4.5
59% wolało go nawet od Opus 4.5 (modelu flagowego z listopada 2025 r.)

Wymienione konkretne ulepszenia:

Czyta istniejący kod przed jego modyfikacją (zamiast zgadywać)
Konsoliduje logikę zamiast jej duplikowania
Mniej fałszywych deklaracji o sukcesie („naprawiłem błąd”, gdy tak się nie stało)
Mniej nadmiarowej inżynierii — nie dodaje niepotrzebnych abstrakcji
Lepsza realizacja wieloetapowych zadań

Współzałożyciel Cursor nazwał to „zauważalną poprawą w stosunku do Sonnet 4.5 w każdym aspekcie, włączając zadania długofalowe i trudniejsze problemy”. GitHub odnotował „wysokie wskaźniki rozwiązywalności problemów i spójność, której programiści potrzebują” przy złożonych poprawkach obejmujących wiele repozytoriów.

3. Computer Use gotowe do produkcji

Skok z 61.4% do 72.5% w OSWorld przekracza pewien próg. Użytkownicy opisują „zdolności na poziomie ludzkim w zadaniach takich jak nawigacja w złożonych arkuszach kalkulacyjnych czy wypełnianie wieloetapowych formularzy internetowych”.

Sonnet 4.6 znacznie poprawił się również pod kątem odporności na prompt injection w zakresie computer use — osiągając poziom modelu Opus 4.6. Jest to krytyczne dla każdego agenta, który przegląda sieć lub przetwarza niezweryfikowane dane wejściowe.

4. Extended Thinking + Adaptive Thinking

Obie funkcje są wspierane, pozwalając modelowi przydzielić więcej mocy obliczeniowej do trudniejszych problemów. Warto jednak zauważyć, że Sonnet 4.6 radzi sobie świetnie nawet bez włączonego extended thinking — model bazowy jest fundamentalnie lepszy.

5. Aktualizacja darmowego poziomu (Free Tier)

Darmowi użytkownicy Claude otrzymują teraz domyślnie Sonnet 4.6, a dodatkowo:

Możliwość tworzenia plików

Konektory (integracje z zewnętrznymi danymi)

Skills (instrukcje wielokrotnego użytku)

Kompaktowanie kontekstu (context compaction)

Jest to obecnie najbardziej zaawansowany darmowy poziom dostępu do AI u jakiegokolwiek dużego dostawcy.

6. Konektory MCP w Excelu

Claude w Excelu obsługuje teraz konektory dla S&P Global, LSEG, Daloopa, PitchBook, Moody's oraz FactSet — pobierając dane finansowe na żywo bezpośrednio do arkuszy.

Cennik

Brak zmian cen w stosunku do Sonnet 4.5:

Plan	Cena
claude.ai Free	$0 (domyślnie Sonnet 4.6, limity użycia)
claude.ai Pro	$20/mies. (wyższe limity, dostęp do Opus)
API input	$3 za milion tokenów
API output	$15 za milion tokenów

Dla porównania:

Opus 4.6 API: $15/$75 za milion tokenów (5x drożej)

GPT-5.2 API: $5/$15 za milion tokenów (1.7x drożej za wejście)

Gemini 3 Pro API: $7/$21 za milion tokenów (2.3x drożej za wejście)

Koszt sesji Claude Code

Dla typowej sesji kodowania (100K tokenów wejściowych + 20K wyjściowych):

Model	Koszt za sesję
Sonnet 4.6	$0.60
GPT-5.2	$0.80
Opus 4.6	$3.00

Zespół uruchamiający 100 sesji agentowych dziennie oszczędza ~$240 dziennie, korzystając z Sonnet 4.6 zamiast Opus.

Jak uzyskać dostęp

claude.ai

Już jest domyślny. Otwórz claude.ai → korzystasz z Sonnet 4.6.

Claude Code

bash

claude  # Sonnet 4.6 jest teraz domyślny
claude --model claude-sonnet-4-6-20250217  # jawny wybór

API

ID modelu: claude-sonnet-4-6-20250217

python

import anthropic

client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-sonnet-4-6-20250217",
    max_tokens=4096,
    messages=[{"role": "user", "content": "Your prompt here"}]
)

Platformy chmurowe

Dostępny w Amazon Bedrock oraz Google Cloud Vertex AI od pierwszego dnia.

Kontekst branżowy

Sonnet 4.6 to drugie duże wydanie Anthropic w ciągu 11 dni (po Opus 4.6 z 6 lutego). CNBC opisało to tempo jako „kontynuację zawrotnej prędkości wydań modeli AI”. VentureBeat nazwał to „sejsmicznym wydarzeniem w wycenach dla branży AI”.

Szerszy trend: poziom bazowy wydajności rośnie. To, co sześć miesięcy temu wymagało flagowego modelu za $15/$75, teraz jest dostępne za $3/$15. Dla twórców produktów AI oznacza to:

Koszty uruchomienia funkcji AI spadły 5-krotnie
Agenci korzystający z komputera są opłacalni ekonomicznie na dużą skalę
Model nie jest już wąskim gardłem — liczy się szybkość wdrażania produktów

Budujesz z Claude Sonnet 4.6? Y Build integruje się z Claude Code w celu wspomaganego przez AI programowania, a następnie zajmuje się wdrożeniem, filmami produktowymi Demo Cut, AI SEO i analityką — pełny stos od kodu do wzrostu. Zacznij za darmo.

Źródła: