GPT-5.3 Codex: Autonomiczny agent kodujący od OpenAI
OpenAI wydało GPT-5.3 Codex 5 lutego 2026 roku — pierwszy model AI, który pomógł w budowie samego siebie. 77,3% Terminal-Bench, 56,8% SWE-Bench Pro, autonomiczne wielogodzinne sesje kodowania. Pełne zestawienie funkcji, benchmarków i porównanie z Claude Code.
TL;DR
OpenAI wydało GPT-5.3 Codex 5 lutego 2026 roku — tego samego dnia, w którym Anthropic wypuściło Opus 4.6. Kluczowe statystyki:
- Terminal-Bench 2.0: 77,3% — prowadzi wśród wszystkich modeli w agentycznym kodowaniu terminalowym
- SWE-Bench Pro: 56,8% — najlepszy wynik w czterech językach programowania
- OSWorld: 64,7% — silne wsparcie dla Computer Use (ale za wynikiem Sonnet 4.6 wynoszącym 72,5%)
- 25% szybszy niż GPT-5.2 Codex
- Interaktywność podczas pracy — kieruj agentem w trakcie zadania bez utraty kontekstu
- Pierwszy model typu self-bootstrapping — GPT-5.3 Codex pomógł w debugowaniu własnego treningu
- Dostępny w aplikacji Codex, CLI i rozszerzeniu IDE dla płatnych planów ChatGPT
- Cennik API nie został jeszcze opublikowany
Co ogłosiło OpenAI
GPT-5.3 Codex to nie tylko lepszy model do kodowania. To pierwszy model OpenAI zaprojektowany jako agent pełnego cyklu życia oprogramowania — od debugowania, przez wdrażanie i monitorowanie, po pisanie PRDs, edycję treści i uruchamianie testów.
Główna funkcja: autonomiczne, długotrwałe zadania. Przekaż GPT-5.3 Codex złożone zadanie, a będzie on nad nim pracował przez wiele godzin — przeprowadzając research, korzystając z narzędzi, wykonując kod i dostosowując swój plan na bieżąco. Możesz nim kierować w trakcie pracy bez utraty kontekstu, zupełnie jak przy współpracy z kolegą z zespołu.
Najbardziej prowokacyjne stwierdzenie OpenAI: GPT-5.3 Codex to „pierwszy model, który był kluczowy w tworzeniu samego siebie”. Zespół Codex wykorzystał wczesne wersje do debugowania własnego potoku treningowego, zarządzania wdrożeniem i diagnozowania wyników ewaluacji.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Benchmarki
Gdzie GPT-5.3 Codex prowadzi
| Benchmark | Co testuje | GPT-5.3 Codex | Najlepszy konkurent |
|---|---|---|---|
| Terminal-Bench 2.0 | Agentyczne kodowanie terminalowe | 77,3% | Gemini 3.1 Pro: 68,5% |
| SWE-Bench Pro | Kodowanie wielojęzyczne | 56,8% | Gemini 3.1 Pro: 54,2% |
| HumanEval | Generowanie kodu | 93% | — |
| GPQA | Rozumowanie naukowe | 81% | Gemini 3.1 Pro: 94,3% |
Pełne porównanie
| Benchmark | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 77,3% | 65,4% | 59,1% | 68,5% |
| SWE-Bench Pro | 56,8% | — | — | 54,2% |
| OSWorld | 64,7% | 72,7% | 72,5% | N/A |
| SWE-bench Verified | ~80% | 80,8% | 79,6% | 80,6% |
| ARC-AGI-2 | 52,9% | 68,8% | 58,3% | 77,1% |
Co oznaczają te liczby
GPT-5.3 Codex dominuje w agentycznym kodowaniu terminalowym — rodzaju pracy, w której agent AI musi poruszać się po bazie kodu, uruchamiać komendy, interpretować dane wyjściowe, naprawiać błędy i iterować. Wynik 77,3% w Terminal-Bench jest o prawie 9 punktów wyższy niż u kolejnego konkurenta (Gemini 3.1 Pro z 68,5%) i o 12 punktów wyższy niż w przypadku Opus 4.6 (65,4%).
Jednak w obszarze Computer Use (OSWorld), model ustępuje Claude'owi — 64,7% w porównaniu do 72,5% modelu Sonnet 4.6. Również w rozumowaniu (ARC-AGI-2) pozostaje daleko w tyle za Gemini 3.1 Pro (77,1%) i Opus 4.6 (68,8%).
Kluczowe funkcje
1. Autonomiczne, wielogodzinne sesje
Poprzednie modele kodujące działały w krótkich seriach — Ty podawałeś prompt, model odpowiadał, a Ty podawałeś kolejny prompt. GPT-5.3 Codex pracuje w sposób ciągły nad złożonymi zadaniami, zarządzając własnym przepływem pracy na wielu etapach.
Przykład przepływu pracy: „Zmigruj nasz system uwierzytelniania z JWT na OAuth 2.0, zaktualizuj wszystkie powiązane punkty końcowe, napisz testy i sprawdź, czy migracja działa”. GPT-5.3 Codex przeprowadzi analizę bazy kodu, zaplanuje migrację, wykona ją plik po pliku, uruchomi testy, naprawi błędy i zaraportuje wynik — potencjalnie w ciągu kilku godzin pracy.
2. Interaktywne sterowanie
Możesz przekierować GPT-5.3 Codex w trakcie jego pracy bez utraty kontekstu. Jeśli widzisz, że podąża niewłaściwą ścieżką, powiedz mu, aby zmienił kierunek. Konwersacja pozostaje ciągła.
3. Pełny cykl życia oprogramowania
OpenAI wyraźnie pozycjonuje GPT-5.3 Codex poza samym pisaniem kodu:
- Debugowanie — czyta logi błędów, śledzi przyczyny źródłowe, wdraża poprawki
- Wdrażanie — zarządza potokami wdrożeniowymi i konfiguracjami
- Monitorowanie — obserwuje działające systemy pod kątem problemów
- PRD i dokumentacja — pisze wymagania produktowe i dokumentację
- Badania użytkowników — syntetyzuje feedback i wyniki testów
- Testowanie — generuje i uruchamia zestawy testów
- Metryki — analizuje dane wydajnościowe
4. Self-Bootstrapping
GPT-5.3 Codex wykorzystywał swoje wczesne wersje podczas rozwoju do:
- Debugowania problemów w potoku treningowym
- Zarządzania wdrożeniem modelu
- Diagnozowania wyników ewaluacji
- Autonomicznej pracy nad tworzeniem gier na przestrzeni milionów tokenów
To pierwszy raz, kiedy model AI został publicznie opisany jako współtwórca własnego powstania.
GPT-5.3 Codex vs. Claude Code
| Możliwość | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| Kodowanie terminalowe | 77,3% | Opus: 65,4%, Sonnet: 59,1% |
| Computer use | 64,7% | Sonnet: 72,5%, Opus: 72,7% |
| SWE-bench | ~80% | Opus: 80,8%, Sonnet: 79,6% |
| Wielogodzinna autonomia | Tak | Ograniczona |
| Interaktywne sterowanie | Tak | Tak |
| Integracja z IDE | Rozszerzenie Codex IDE | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| Zadania biurowe | Ograniczone | Sonnet: 1633 Elo |
| Odporność na prompt injection | Standardowa | Poziom Opus |
| Cennik API | Do ustalenia | $3/$15 (Sonnet), $15/$75 (Opus) |
- Realizujesz długotrwałe, autonomiczne zadania kodowania (sesje wielogodzinne)
- Pracujesz w workflow opartym na terminalu ze złożonymi łańcuchami narzędzi
- Korzystasz już z ekosystemu OpenAI/ChatGPT
- Potrzebujesz pełnej automatyzacji cyklu życia oprogramowania
- Kluczowe jest Computer Use / automatyzacja przeglądarki (72,5% vs 64,7%)
- Wykonujesz zadania biurowe równolegle z kodowaniem
- Bezpieczeństwo agenta jest krytyczne (lepsza odporność na prompt injection)
- Ważna jest przewidywalność kosztów API (znany cennik $3/$15)
Dostępność
GPT-5.3 Codex jest dostępny dla płatnych planów ChatGPT (Plus, Pro, Team, Enterprise) poprzez:
- Aplikacja Codex (web) — pełny interfejs autonomicznego agenta
- Codex CLI — agent kodujący działający w terminalu
- Rozszerzenie IDE — zintegrowane z Twoim edytorem
- API — pojawi się w ciągu kilku tygodni (cennik do ustalenia)
Co to oznacza dla programistów
Wyścig agentów AI do kodowania stał się faktem
5 lutego 2026 roku zarówno OpenAI, jak i Anthropic wydały swoje flagowe modele tego samego dnia — GPT-5.3 Codex i Claude Opus 4.6. Przekaz jest jasny: autonomiczni agenci kodujący są głównym polem bitwy konkurencyjnej.
Różne mocne strony, różne przepływy pracy
GPT-5.3 Codex bryluje w autonomicznycm kodowaniu opartym na terminalu podczas długich sesji. Claude przoduje w obsłudze komputera, integracji biurowej i bezpieczeństwie. Gemini 3.1 Pro prowadzi w obszarze rozumowania i multimodalności.
Dla większości programistów wybór zależy od ich workflow:
- Intensywna praca w CLI/terminalu → GPT-5.3 Codex
- Automatyzacja przeglądarki + zadania mieszane → Claude Code
- Praca naukowa / wymagająca silnego rozumowania → Gemini 3.1 Pro
Model to dopiero początek
Trend widoczny u wszystkich trzech gigantów: sam model to za mało. Potrzebujesz wokół niego narzędzi do wdrażania, monitorowania, analityki i wzrostu. Agent AI pisze kod, ale dostarczenie produktu wymaga pełnego stosu technologicznego.
Dostarczaj to, co budujesz. Y Build zajmuje się wszystkim po napisaniu kodu: wdrażaniem jednym kliknięciem, funkcją Demo Cut dla filmów produktowych, AI SEO oraz analityką. Działa z dowolnym narzędziem AI do kodowania. Zacznij za darmo.
Źródła:
- OpenAI: Introducing GPT-5.3-Codex
- OpenAI: GPT-5.3-Codex System Card
- Fortune: OpenAI GPT-5.3 Codex raises cybersecurity risks
- MarkTechPost: GPT-5.3-Codex agentic coding model
- DataCamp: GPT-5.3 Codex from coding to general work agent
- OfficeChai: Gemini 3.1 Pro Benchmarks (GPT-5.3 comparison)
- LLM Stats: GPT-5.3 Codex pricing and benchmarks
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.