GPT-5.3 Codex: OpenAI:n autonominen koodausagentti

TL;DR

OpenAI julkaisi GPT-5.3 Codexin 5. helmikuuta 2026 — samana päivänä, kun Anthropic julkaisi Opus 4.6:n. Tärkeimmät tilastot:

Terminal-Bench 2.0: 77,3 % — johtaa kaikkia malleja agenttipohjaisessa terminaalikoodauksessa
SWE-Bench Pro: 56,8 % — kärkipisteet neljällä eri ohjelmointikielellä
OSWorld: 64,7 % — vahva tietokoneen käyttö (mutta häviää Sonnet 4.6:n 72,5 % tulokselle)
25 % nopeampi kuin GPT-5.2 Codex
Interaktiivinen työskentelyn aikana — ohjaa agenttia kesken tehtävän menettämättä kontekstia
Ensimmäinen itseään kehittävä (self-bootstrapping) malli — GPT-5.3 Codex auttoi korjaamaan oman koulutusprosessinsa virheitä
Saatavilla Codex-sovelluksessa, CLI-työkaluna ja IDE-laajennuksena maksullisissa ChatGPT-tilauksissa
API-hinnoittelua ei ole vielä julkaistu

Mitä OpenAI julkisti

GPT-5.3 Codex ei ole vain parempi koodausmalli. Se on OpenAI:n ensimmäinen malli, joka on suunniteltu ohjelmiston koko elinkaaren agentiksi — se hoitaa virheenkorjauksen, käyttöönoton, seurannan, PRD-dokumenttien kirjoittamisen, tekstin editoinnin, testien ajamisen ja paljon muuta.

Pääominaisuus: autonomiset pitkäkestoiset tehtävät. Anna GPT-5.3 Codexille monimutkainen tehtävä, ja se työskentelee sen parissa tunteja — tehden taustatutkimusta, käyttäen työkaluja, suorittaen koodia ja mukauttaen suunnitelmaansa matkan varrella. Voit ohjata sitä kesken tehtävän menettämättä kontekstia, aivan kuin työskentelisit kollegan kanssa.

OpenAI:n provokatiivisin väite: GPT-5.3 Codex on "ensimmäinen malli, joka oli mukana luomassa itseään." Codex-tiimi käytti varhaisia versioita mallista korjaamaan koodivirheitä sen omassa koulutusputkessa, hallitsemaan käyttöönottoa ja diagnosoimaan evaluointituloksia.

Benchmark-tulokset

Missä GPT-5.3 Codex johtaa

Benchmark	Mitä testaa	GPT-5.3 Codex	Paras kilpailija
Terminal-Bench 2.0	Agenttipohjainen terminaalikoodaus	77,3 %	Gemini 3.1 Pro: 68,5 %
SWE-Bench Pro	Monikielinen koodaus	56,8 %	Gemini 3.1 Pro: 54,2 %
HumanEval	Koodin generointi	93 %	—
GPQA	Tieteellinen päättely	81 %	Gemini 3.1 Pro: 94,3 %

Täysi vertailu

Benchmark	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	77,3 %	65,4 %	59,1 %	68,5 %
SWE-Bench Pro	56,8 %	—	—	54,2 %
OSWorld	64,7 %	72,7 %	72,5 %	N/A
SWE-bench Verified	~80 %	80,8 %	79,6 %	80,6 %
ARC-AGI-2	52,9 %	68,8 %	58,3 %	77,1 %

Mitä luvut tarkoittavat

GPT-5.3 Codex hallitsee agenttipohjaista terminaalikoodausta — työtä, jossa tekoälyagentin on navigoitava koodikannassa, suoritettava komentoja, tulkittava tulosteita, korjattava virheitä ja iteroitava. 77,3 % tulos Terminal-Benchissä on lähes 9 prosenttiyksikköä edellä seuraavaksi parasta (Gemini 3.1 Pro 68,5 %) ja 12 yksikköä edellä Opus 4.6:tta (65,4 %).

Kuitenkin tietokoneen käytössä (OSWorld) se häviää Claudelle merkittävästi — 64,7 % verrattuna Sonnet 4.6:n 72,5 %:iin. Myös päättelykyvyssä (ARC-AGI-2) se on selvästi jäljessä Gemini 3.1 Prota (77,1 %) ja Opus 4.6:tta (68,8 %).

Keskeiset ominaisuudet

1. Autonomiset usean tunnin sessiot

Aiemmat koodausmallit toimivat lyhyissä pätkissä — sinä annat kehotteen, se vastaa, sinä annat uuden kehotteen. GPT-5.3 Codex työskentelee jatkuvasti monimutkaisten tehtävien parissa halliten omaa työnkulkuaan useiden vaiheiden läpi.

Esimerkki työnkulusta: "Migroi autentikointijärjestelmämme JWT:stä OAuth 2.0:aan, päivitä kaikki vaikuttavat päätepisteet, kirjoita testit ja varmista, että migraatio toimii." GPT-5.3 Codex tutkii koodikannan, suunnittelee migraation, toteuttaa sen tiedosto kerrallaan, ajaa testit, korjaa virheet ja raportoi tulokset — mahdollisesti useiden tuntien aikana.

2. Interaktiivinen ohjaus

Voit uudelleenohjata GPT-5.3 Codexia sen työskentelyn aikana menettämättä kontekstia. Jos näet sen etenevän väärään suuntaan, voit käskeä sitä vaihtamaan suuntaa. Keskustelu pysyy yhtenäisenä.

3. Ohjelmiston koko elinkaari

OpenAI asemoi GPT-5.3 Codexin selvästi pelkkää koodin kirjoittamista laajemmalle:

Virheenkorjaus — lukee virhelokeja, jäljittää juurisyitä ja toteuttaa korjauksia
Käyttöönotto — hallitsee deployment-putkia ja konfiguraatioita
Seuranta — tarkkailee käynnissä olevien järjestelmien ongelmia
PRD:t ja dokumentaatio — kirjoittaa tuotevaatimuksia ja dokumentaatiota
Käyttäjätutkimus — syntetisoi palautetta ja testituloksia
Testaus — generoi ja ajaa testipaketteja
Metriikat — analysoi suorituskykydataa

4. Itseään kehittävä (Self-Bootstrapping)

GPT-5.3 Codex käytti varhaisia versioita itsestään kehityksen aikana:

Koulutusputken ongelmien vianmääritykseen

Mallin käyttöönoton hallintaan

Evaluointitulosten diagnosointiin

Pelinkehityksen iterointiin autonomisesti miljoonien tokenien läpi

Tämä on ensimmäinen kerta, kun tekoälymallin on julkisesti kerrottu osallistuneen omaan luomiseensa.

GPT-5.3 Codex vs. Claude Code

Kyvykkyys	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
Terminaalikoodaus	77,3 %	Opus: 65,4 %, Sonnet: 59,1 %
Tietokoneen käyttö	64,7 %	Sonnet: 72,5 %, Opus: 72,7 %
SWE-bench	~80 %	Opus: 80,8 %, Sonnet: 79,6 %
Usean tunnin autonomia	Kyllä	Rajoitettu
Interaktiivinen ohjaus	Kyllä	Kyllä
IDE-integraatio	Codex IDE-laajennus	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
Toimistotehtävät	Rajoitettu	Sonnet: 1633 Elo
Suojaus prompt injection -hyökkäyksiä vastaan	Standardi	Opus-taso
API-hinnoittelu	TBD	$3/$15 (Sonnet), $15/$75 (Opus)

Valitse GPT-5.3 Codex, kun:

Tehtävänä on pitkäkestoisia autonomisia koodaustehtäviä (usean tunnin sessiot)
Työnkulku on terminaalipainotteista ja sisältää monimutkaisia työkaluja
Käytät jo OpenAI/ChatGPT-ekosysteemiä
Tavoitteena on ohjelmiston elinkaaren täysi automatisointi

Valitse Claude Code, kun:

Tarvitset tietokoneen käytön tai selaimen automatisointia (72,5 % vs 64,7 %)
Teet toimistotehtäviä koodauksen ohella
Agentin turvallisuus on kriittistä (parempi suojaus prompt injection -hyökkäyksiä vastaan)
API-kustannusten ennakoitavuus on tärkeää ($3/$15 tunnettu hinnoittelu)

Saatavuus

GPT-5.3 Codex on saatavilla maksullisille ChatGPT-tileille (Plus, Pro, Team, Enterprise) seuraavissa muodoissa:

Codex-sovellus (web) — täysi autonomisen agentin käyttöliittymä
Codex CLI — terminaalipohjainen koodausagentti
IDE-laajennus — integroitu koodieditoriisi
API — tulossa lähiviikkoina (hinnoittelu avoin)

Ilmaisversiota ei ole tällä hetkellä saatavilla.

Mitä tämä tarkoittaa kehittäjille

Tekoälykoodausagenttien kilpajuoksu on todellista

helmikuuta 2026 sekä OpenAI että Anthropic julkaisivat merkittävät mallit samana päivänä — GPT-5.3 Codexin ja Claude Opus 4.6:n. Viesti on selvä: autonomiset koodausagentit ovat ensisijainen kilpailun areena.

Eri vahvuudet, eri työnkulut

GPT-5.3 Codex loistaa autonomisessa, terminaalipohjaisessa koodauksessa pitkien sessioiden aikana. Claude loistaa tietokoneen käytössä, toimistointegraatioissa ja turvallisuudessa. Gemini 3.1 Pro johtaa päättelykyvyssä ja multimodaalisuudessa.

Useimmille kehittäjille valinta riippuu työnkulusta:

Paljon CLI/terminaalityötä → GPT-5.3 Codex

Selainautomaatio + sekalaiset tehtävät → Claude Code

Tieteellinen/päättelypainotteinen työ → Gemini 3.1 Pro

Malli on vasta alku

Suuntaus kaikkien kolmen laboratorion välillä on sama: pelkkä malli ei riitä. Tarvitset sen ympärille työkaluja käyttöönottoon, seurantaan, analytiikkaan ja kasvuun. Tekoälykoodausagentti kirjoittaa koodin, mutta tuotteen toimittaminen vaatii koko teknologiapinon hallintaa.

Toimita se, mitä rakennat. Y Build hoitaa kaiken koodin jälkeisen: yhdellä klikkauksella tapahtuva julkaisu, Demo Cut tuotevideoille, AI SEO ja analytiikka. Toimii minkä tahansa tekoälykoodaustyökalun kanssa. Aloita ilmaiseksi.

Lähteet: