GPT-5.3 Codex: Autonomiczny agent kodujący od OpenAI

TL;DR

OpenAI wydało GPT-5.3 Codex 5 lutego 2026 roku — tego samego dnia, w którym Anthropic wypuściło Opus 4.6. Kluczowe statystyki:

Terminal-Bench 2.0: 77,3% — prowadzi wśród wszystkich modeli w agentycznym kodowaniu terminalowym
SWE-Bench Pro: 56,8% — najlepszy wynik w czterech językach programowania
OSWorld: 64,7% — silne wsparcie dla Computer Use (ale za wynikiem Sonnet 4.6 wynoszącym 72,5%)
25% szybszy niż GPT-5.2 Codex
Interaktywność podczas pracy — kieruj agentem w trakcie zadania bez utraty kontekstu
Pierwszy model typu self-bootstrapping — GPT-5.3 Codex pomógł w debugowaniu własnego treningu
Dostępny w aplikacji Codex, CLI i rozszerzeniu IDE dla płatnych planów ChatGPT
Cennik API nie został jeszcze opublikowany

Co ogłosiło OpenAI

GPT-5.3 Codex to nie tylko lepszy model do kodowania. To pierwszy model OpenAI zaprojektowany jako agent pełnego cyklu życia oprogramowania — od debugowania, przez wdrażanie i monitorowanie, po pisanie PRDs, edycję treści i uruchamianie testów.

Główna funkcja: autonomiczne, długotrwałe zadania. Przekaż GPT-5.3 Codex złożone zadanie, a będzie on nad nim pracował przez wiele godzin — przeprowadzając research, korzystając z narzędzi, wykonując kod i dostosowując swój plan na bieżąco. Możesz nim kierować w trakcie pracy bez utraty kontekstu, zupełnie jak przy współpracy z kolegą z zespołu.

Najbardziej prowokacyjne stwierdzenie OpenAI: GPT-5.3 Codex to „pierwszy model, który był kluczowy w tworzeniu samego siebie”. Zespół Codex wykorzystał wczesne wersje do debugowania własnego potoku treningowego, zarządzania wdrożeniem i diagnozowania wyników ewaluacji.

Benchmarki

Gdzie GPT-5.3 Codex prowadzi

Benchmark	Co testuje	GPT-5.3 Codex	Najlepszy konkurent
Terminal-Bench 2.0	Agentyczne kodowanie terminalowe	77,3%	Gemini 3.1 Pro: 68,5%
SWE-Bench Pro	Kodowanie wielojęzyczne	56,8%	Gemini 3.1 Pro: 54,2%
HumanEval	Generowanie kodu	93%	—
GPQA	Rozumowanie naukowe	81%	Gemini 3.1 Pro: 94,3%

Pełne porównanie

Benchmark	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	77,3%	65,4%	59,1%	68,5%
SWE-Bench Pro	56,8%	—	—	54,2%
OSWorld	64,7%	72,7%	72,5%	N/A
SWE-bench Verified	~80%	80,8%	79,6%	80,6%
ARC-AGI-2	52,9%	68,8%	58,3%	77,1%

Co oznaczają te liczby

GPT-5.3 Codex dominuje w agentycznym kodowaniu terminalowym — rodzaju pracy, w której agent AI musi poruszać się po bazie kodu, uruchamiać komendy, interpretować dane wyjściowe, naprawiać błędy i iterować. Wynik 77,3% w Terminal-Bench jest o prawie 9 punktów wyższy niż u kolejnego konkurenta (Gemini 3.1 Pro z 68,5%) i o 12 punktów wyższy niż w przypadku Opus 4.6 (65,4%).

Jednak w obszarze Computer Use (OSWorld), model ustępuje Claude'owi — 64,7% w porównaniu do 72,5% modelu Sonnet 4.6. Również w rozumowaniu (ARC-AGI-2) pozostaje daleko w tyle za Gemini 3.1 Pro (77,1%) i Opus 4.6 (68,8%).

Kluczowe funkcje

1. Autonomiczne, wielogodzinne sesje

Poprzednie modele kodujące działały w krótkich seriach — Ty podawałeś prompt, model odpowiadał, a Ty podawałeś kolejny prompt. GPT-5.3 Codex pracuje w sposób ciągły nad złożonymi zadaniami, zarządzając własnym przepływem pracy na wielu etapach.

Przykład przepływu pracy: „Zmigruj nasz system uwierzytelniania z JWT na OAuth 2.0, zaktualizuj wszystkie powiązane punkty końcowe, napisz testy i sprawdź, czy migracja działa”. GPT-5.3 Codex przeprowadzi analizę bazy kodu, zaplanuje migrację, wykona ją plik po pliku, uruchomi testy, naprawi błędy i zaraportuje wynik — potencjalnie w ciągu kilku godzin pracy.

2. Interaktywne sterowanie

Możesz przekierować GPT-5.3 Codex w trakcie jego pracy bez utraty kontekstu. Jeśli widzisz, że podąża niewłaściwą ścieżką, powiedz mu, aby zmienił kierunek. Konwersacja pozostaje ciągła.

3. Pełny cykl życia oprogramowania

OpenAI wyraźnie pozycjonuje GPT-5.3 Codex poza samym pisaniem kodu:

Debugowanie — czyta logi błędów, śledzi przyczyny źródłowe, wdraża poprawki
Wdrażanie — zarządza potokami wdrożeniowymi i konfiguracjami
Monitorowanie — obserwuje działające systemy pod kątem problemów
PRD i dokumentacja — pisze wymagania produktowe i dokumentację
Badania użytkowników — syntetyzuje feedback i wyniki testów
Testowanie — generuje i uruchamia zestawy testów
Metryki — analizuje dane wydajnościowe

4. Self-Bootstrapping

GPT-5.3 Codex wykorzystywał swoje wczesne wersje podczas rozwoju do:

Debugowania problemów w potoku treningowym

Zarządzania wdrożeniem modelu

Diagnozowania wyników ewaluacji

Autonomicznej pracy nad tworzeniem gier na przestrzeni milionów tokenów

To pierwszy raz, kiedy model AI został publicznie opisany jako współtwórca własnego powstania.

GPT-5.3 Codex vs. Claude Code

Możliwość	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
Kodowanie terminalowe	77,3%	Opus: 65,4%, Sonnet: 59,1%
Computer use	64,7%	Sonnet: 72,5%, Opus: 72,7%
SWE-bench	~80%	Opus: 80,8%, Sonnet: 79,6%
Wielogodzinna autonomia	Tak	Ograniczona
Interaktywne sterowanie	Tak	Tak
Integracja z IDE	Rozszerzenie Codex IDE	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
Zadania biurowe	Ograniczone	Sonnet: 1633 Elo
Odporność na prompt injection	Standardowa	Poziom Opus
Cennik API	Do ustalenia	$3/$15 (Sonnet), $15/$75 (Opus)

Wybierz GPT-5.3 Codex, gdy:

Realizujesz długotrwałe, autonomiczne zadania kodowania (sesje wielogodzinne)
Pracujesz w workflow opartym na terminalu ze złożonymi łańcuchami narzędzi
Korzystasz już z ekosystemu OpenAI/ChatGPT
Potrzebujesz pełnej automatyzacji cyklu życia oprogramowania

Wybierz Claude Code, gdy:

Kluczowe jest Computer Use / automatyzacja przeglądarki (72,5% vs 64,7%)
Wykonujesz zadania biurowe równolegle z kodowaniem
Bezpieczeństwo agenta jest krytyczne (lepsza odporność na prompt injection)
Ważna jest przewidywalność kosztów API (znany cennik $3/$15)

Dostępność

GPT-5.3 Codex jest dostępny dla płatnych planów ChatGPT (Plus, Pro, Team, Enterprise) poprzez:

Aplikacja Codex (web) — pełny interfejs autonomicznego agenta
Codex CLI — agent kodujący działający w terminalu
Rozszerzenie IDE — zintegrowane z Twoim edytorem
API — pojawi się w ciągu kilku tygodni (cennik do ustalenia)

Obecnie brak dostępu w darmowej wersji.

Co to oznacza dla programistów

Wyścig agentów AI do kodowania stał się faktem

5 lutego 2026 roku zarówno OpenAI, jak i Anthropic wydały swoje flagowe modele tego samego dnia — GPT-5.3 Codex i Claude Opus 4.6. Przekaz jest jasny: autonomiczni agenci kodujący są głównym polem bitwy konkurencyjnej.

Różne mocne strony, różne przepływy pracy

GPT-5.3 Codex bryluje w autonomicznycm kodowaniu opartym na terminalu podczas długich sesji. Claude przoduje w obsłudze komputera, integracji biurowej i bezpieczeństwie. Gemini 3.1 Pro prowadzi w obszarze rozumowania i multimodalności.

Dla większości programistów wybór zależy od ich workflow:

Intensywna praca w CLI/terminalu → GPT-5.3 Codex

Automatyzacja przeglądarki + zadania mieszane → Claude Code

Praca naukowa / wymagająca silnego rozumowania → Gemini 3.1 Pro

Model to dopiero początek

Trend widoczny u wszystkich trzech gigantów: sam model to za mało. Potrzebujesz wokół niego narzędzi do wdrażania, monitorowania, analityki i wzrostu. Agent AI pisze kod, ale dostarczenie produktu wymaga pełnego stosu technologicznego.

Dostarczaj to, co budujesz. Y Build zajmuje się wszystkim po napisaniu kodu: wdrażaniem jednym kliknięciem, funkcją Demo Cut dla filmów produktowych, AI SEO oraz analityką. Działa z dowolnym narzędziem AI do kodowania. Zacznij za darmo.

Źródła: