GPT-5.3 Codex: OpenAI:n autonominen koodausagentti
OpenAI julkaisi GPT-5.3 Codexin 5. helmikuuta 2026 — ensimmäisen tekoälymallin, joka auttoi rakentamaan itsensä. 77,3 % Terminal-Bench, 56,8 % SWE-Bench Pro, autonomiset usean tunnin koodaussessiot. Kattava analyysi ominaisuuksista, benchmark-tuloksista ja vertailu Claude Codeen.
TL;DR
OpenAI julkaisi GPT-5.3 Codexin 5. helmikuuta 2026 — samana päivänä, kun Anthropic julkaisi Opus 4.6:n. Tärkeimmät tilastot:
- Terminal-Bench 2.0: 77,3 % — johtaa kaikkia malleja agenttipohjaisessa terminaalikoodauksessa
- SWE-Bench Pro: 56,8 % — kärkipisteet neljällä eri ohjelmointikielellä
- OSWorld: 64,7 % — vahva tietokoneen käyttö (mutta häviää Sonnet 4.6:n 72,5 % tulokselle)
- 25 % nopeampi kuin GPT-5.2 Codex
- Interaktiivinen työskentelyn aikana — ohjaa agenttia kesken tehtävän menettämättä kontekstia
- Ensimmäinen itseään kehittävä (self-bootstrapping) malli — GPT-5.3 Codex auttoi korjaamaan oman koulutusprosessinsa virheitä
- Saatavilla Codex-sovelluksessa, CLI-työkaluna ja IDE-laajennuksena maksullisissa ChatGPT-tilauksissa
- API-hinnoittelua ei ole vielä julkaistu
Mitä OpenAI julkisti
GPT-5.3 Codex ei ole vain parempi koodausmalli. Se on OpenAI:n ensimmäinen malli, joka on suunniteltu ohjelmiston koko elinkaaren agentiksi — se hoitaa virheenkorjauksen, käyttöönoton, seurannan, PRD-dokumenttien kirjoittamisen, tekstin editoinnin, testien ajamisen ja paljon muuta.
Pääominaisuus: autonomiset pitkäkestoiset tehtävät. Anna GPT-5.3 Codexille monimutkainen tehtävä, ja se työskentelee sen parissa tunteja — tehden taustatutkimusta, käyttäen työkaluja, suorittaen koodia ja mukauttaen suunnitelmaansa matkan varrella. Voit ohjata sitä kesken tehtävän menettämättä kontekstia, aivan kuin työskentelisit kollegan kanssa.
OpenAI:n provokatiivisin väite: GPT-5.3 Codex on "ensimmäinen malli, joka oli mukana luomassa itseään." Codex-tiimi käytti varhaisia versioita mallista korjaamaan koodivirheitä sen omassa koulutusputkessa, hallitsemaan käyttöönottoa ja diagnosoimaan evaluointituloksia.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Benchmark-tulokset
Missä GPT-5.3 Codex johtaa
| Benchmark | Mitä testaa | GPT-5.3 Codex | Paras kilpailija |
|---|---|---|---|
| Terminal-Bench 2.0 | Agenttipohjainen terminaalikoodaus | 77,3 % | Gemini 3.1 Pro: 68,5 % |
| SWE-Bench Pro | Monikielinen koodaus | 56,8 % | Gemini 3.1 Pro: 54,2 % |
| HumanEval | Koodin generointi | 93 % | — |
| GPQA | Tieteellinen päättely | 81 % | Gemini 3.1 Pro: 94,3 % |
Täysi vertailu
| Benchmark | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 77,3 % | 65,4 % | 59,1 % | 68,5 % |
| SWE-Bench Pro | 56,8 % | — | — | 54,2 % |
| OSWorld | 64,7 % | 72,7 % | 72,5 % | N/A |
| SWE-bench Verified | ~80 % | 80,8 % | 79,6 % | 80,6 % |
| ARC-AGI-2 | 52,9 % | 68,8 % | 58,3 % | 77,1 % |
Mitä luvut tarkoittavat
GPT-5.3 Codex hallitsee agenttipohjaista terminaalikoodausta — työtä, jossa tekoälyagentin on navigoitava koodikannassa, suoritettava komentoja, tulkittava tulosteita, korjattava virheitä ja iteroitava. 77,3 % tulos Terminal-Benchissä on lähes 9 prosenttiyksikköä edellä seuraavaksi parasta (Gemini 3.1 Pro 68,5 %) ja 12 yksikköä edellä Opus 4.6:tta (65,4 %).
Kuitenkin tietokoneen käytössä (OSWorld) se häviää Claudelle merkittävästi — 64,7 % verrattuna Sonnet 4.6:n 72,5 %:iin. Myös päättelykyvyssä (ARC-AGI-2) se on selvästi jäljessä Gemini 3.1 Prota (77,1 %) ja Opus 4.6:tta (68,8 %).
Keskeiset ominaisuudet
1. Autonomiset usean tunnin sessiot
Aiemmat koodausmallit toimivat lyhyissä pätkissä — sinä annat kehotteen, se vastaa, sinä annat uuden kehotteen. GPT-5.3 Codex työskentelee jatkuvasti monimutkaisten tehtävien parissa halliten omaa työnkulkuaan useiden vaiheiden läpi.
Esimerkki työnkulusta: "Migroi autentikointijärjestelmämme JWT:stä OAuth 2.0:aan, päivitä kaikki vaikuttavat päätepisteet, kirjoita testit ja varmista, että migraatio toimii." GPT-5.3 Codex tutkii koodikannan, suunnittelee migraation, toteuttaa sen tiedosto kerrallaan, ajaa testit, korjaa virheet ja raportoi tulokset — mahdollisesti useiden tuntien aikana.
2. Interaktiivinen ohjaus
Voit uudelleenohjata GPT-5.3 Codexia sen työskentelyn aikana menettämättä kontekstia. Jos näet sen etenevän väärään suuntaan, voit käskeä sitä vaihtamaan suuntaa. Keskustelu pysyy yhtenäisenä.
3. Ohjelmiston koko elinkaari
OpenAI asemoi GPT-5.3 Codexin selvästi pelkkää koodin kirjoittamista laajemmalle:
- Virheenkorjaus — lukee virhelokeja, jäljittää juurisyitä ja toteuttaa korjauksia
- Käyttöönotto — hallitsee deployment-putkia ja konfiguraatioita
- Seuranta — tarkkailee käynnissä olevien järjestelmien ongelmia
- PRD:t ja dokumentaatio — kirjoittaa tuotevaatimuksia ja dokumentaatiota
- Käyttäjätutkimus — syntetisoi palautetta ja testituloksia
- Testaus — generoi ja ajaa testipaketteja
- Metriikat — analysoi suorituskykydataa
4. Itseään kehittävä (Self-Bootstrapping)
GPT-5.3 Codex käytti varhaisia versioita itsestään kehityksen aikana:
- Koulutusputken ongelmien vianmääritykseen
- Mallin käyttöönoton hallintaan
- Evaluointitulosten diagnosointiin
- Pelinkehityksen iterointiin autonomisesti miljoonien tokenien läpi
Tämä on ensimmäinen kerta, kun tekoälymallin on julkisesti kerrottu osallistuneen omaan luomiseensa.
GPT-5.3 Codex vs. Claude Code
| Kyvykkyys | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| Terminaalikoodaus | 77,3 % | Opus: 65,4 %, Sonnet: 59,1 % |
| Tietokoneen käyttö | 64,7 % | Sonnet: 72,5 %, Opus: 72,7 % |
| SWE-bench | ~80 % | Opus: 80,8 %, Sonnet: 79,6 % |
| Usean tunnin autonomia | Kyllä | Rajoitettu |
| Interaktiivinen ohjaus | Kyllä | Kyllä |
| IDE-integraatio | Codex IDE-laajennus | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| Toimistotehtävät | Rajoitettu | Sonnet: 1633 Elo |
| Suojaus prompt injection -hyökkäyksiä vastaan | Standardi | Opus-taso |
| API-hinnoittelu | TBD | $3/$15 (Sonnet), $15/$75 (Opus) |
- Tehtävänä on pitkäkestoisia autonomisia koodaustehtäviä (usean tunnin sessiot)
- Työnkulku on terminaalipainotteista ja sisältää monimutkaisia työkaluja
- Käytät jo OpenAI/ChatGPT-ekosysteemiä
- Tavoitteena on ohjelmiston elinkaaren täysi automatisointi
- Tarvitset tietokoneen käytön tai selaimen automatisointia (72,5 % vs 64,7 %)
- Teet toimistotehtäviä koodauksen ohella
- Agentin turvallisuus on kriittistä (parempi suojaus prompt injection -hyökkäyksiä vastaan)
- API-kustannusten ennakoitavuus on tärkeää ($3/$15 tunnettu hinnoittelu)
Saatavuus
GPT-5.3 Codex on saatavilla maksullisille ChatGPT-tileille (Plus, Pro, Team, Enterprise) seuraavissa muodoissa:
- Codex-sovellus (web) — täysi autonomisen agentin käyttöliittymä
- Codex CLI — terminaalipohjainen koodausagentti
- IDE-laajennus — integroitu koodieditoriisi
- API — tulossa lähiviikkoina (hinnoittelu avoin)
Mitä tämä tarkoittaa kehittäjille
Tekoälykoodausagenttien kilpajuoksu on todellista
- helmikuuta 2026 sekä OpenAI että Anthropic julkaisivat merkittävät mallit samana päivänä — GPT-5.3 Codexin ja Claude Opus 4.6:n. Viesti on selvä: autonomiset koodausagentit ovat ensisijainen kilpailun areena.
Eri vahvuudet, eri työnkulut
GPT-5.3 Codex loistaa autonomisessa, terminaalipohjaisessa koodauksessa pitkien sessioiden aikana. Claude loistaa tietokoneen käytössä, toimistointegraatioissa ja turvallisuudessa. Gemini 3.1 Pro johtaa päättelykyvyssä ja multimodaalisuudessa.
Useimmille kehittäjille valinta riippuu työnkulusta:
- Paljon CLI/terminaalityötä → GPT-5.3 Codex
- Selainautomaatio + sekalaiset tehtävät → Claude Code
- Tieteellinen/päättelypainotteinen työ → Gemini 3.1 Pro
Malli on vasta alku
Suuntaus kaikkien kolmen laboratorion välillä on sama: pelkkä malli ei riitä. Tarvitset sen ympärille työkaluja käyttöönottoon, seurantaan, analytiikkaan ja kasvuun. Tekoälykoodausagentti kirjoittaa koodin, mutta tuotteen toimittaminen vaatii koko teknologiapinon hallintaa.
Toimita se, mitä rakennat. Y Build hoitaa kaiken koodin jälkeisen: yhdellä klikkauksella tapahtuva julkaisu, Demo Cut tuotevideoille, AI SEO ja analytiikka. Toimii minkä tahansa tekoälykoodaustyökalun kanssa. Aloita ilmaiseksi.
Lähteet:
- OpenAI: Introducing GPT-5.3-Codex
- OpenAI: GPT-5.3-Codex System Card
- Fortune: OpenAI GPT-5.3 Codex raises cybersecurity risks
- MarkTechPost: GPT-5.3-Codex agentic coding model
- DataCamp: GPT-5.3 Codex from coding to general work agent
- OfficeChai: Gemini 3.1 Pro Benchmarks (GPT-5.3 comparison)
- LLM Stats: GPT-5.3 Codex pricing and benchmarks
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.