GPT-5.3 Codex : l'agent de codage autonome d'OpenAI
OpenAI a lancé GPT-5.3 Codex le 5 février 2026 — le premier modèle d'IA qui a aidé à se construire lui-même. 77,3 % Terminal-Bench, 56,8 % SWE-Bench Pro, sessions de codage autonomes de plusieurs heures. Analyse complète des fonctionnalités, des benchmarks et comparaison avec Claude Code.
TL;DR
OpenAI a lancé GPT-5.3 Codex le 5 février 2026 — le jour même où Anthropic a sorti Opus 4.6. Statistiques clés :
- Terminal-Bench 2.0 : 77,3 % — domine tous les modèles sur le codage en terminal agentique
- SWE-Bench Pro : 56,8 % — meilleur score sur quatre langages de programmation
- OSWorld : 64,7 % — utilisation robuste de l'ordinateur (mais derrière les 72,5 % de Sonnet 4.6)
- 25 % plus rapide que GPT-5.2 Codex
- Interactif pendant le travail — dirigez l'agent en cours de tâche sans perdre le contexte
- Premier modèle auto-généré (self-bootstrapping) — GPT-5.3 Codex a aidé à déboguer son propre entraînement
- Disponible dans l'application Codex, en CLI et via l'extension IDE pour les forfaits ChatGPT payants
- Tarification de l'API non encore publiée
Ce qu'OpenAI a annoncé
GPT-5.3 Codex n'est pas seulement un meilleur modèle de codage. C'est le premier modèle d'OpenAI conçu comme un agent de cycle de vie complet du logiciel — débogage, déploiement, surveillance, rédaction de PRD, édition de contenu, exécution de tests, et plus encore.
La fonctionnalité phare : tâches autonomes de longue durée. Donnez à GPT-5.3 Codex une tâche complexe, et il y travaillera pendant des heures — effectuant des recherches, utilisant des outils, exécutant du code et adaptant son plan au fur et à mesure. Vous pouvez le diriger en cours de tâche sans perdre le contexte, comme si vous travailliez avec un collègue.
La déclaration la plus provocatrice d'OpenAI : GPT-5.3 Codex est « le premier modèle ayant contribué de manière instrumentale à sa propre création ». L'équipe Codex a utilisé des versions préliminaires pour déboguer son propre pipeline d'entraînement, gérer le déploiement et diagnostiquer les résultats d'évaluation.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Benchmarks
Là où GPT-5.3 Codex domine
| Benchmark | Ce qu'il teste | GPT-5.3 Codex | Meilleur concurrent |
|---|---|---|---|
| Terminal-Bench 2.0 | Codage en terminal agentique | 77,3 % | Gemini 3.1 Pro : 68,5 % |
| SWE-Bench Pro | Codage multi-langage | 56,8 % | Gemini 3.1 Pro : 54,2 % |
| HumanEval | Génération de code | 93 % | — |
| GPQA | Raisonnement scientifique | 81 % | Gemini 3.1 Pro : 94,3 % |
Comparaison complète
| Benchmark | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 77,3 % | 65,4 % | 59,1 % | 68,5 % |
| SWE-Bench Pro | 56,8 % | — | — | 54,2 % |
| OSWorld | 64,7 % | 72,7 % | 72,5 % | N/A |
| SWE-bench Verified | ~80 % | 80,8 % | 79,6 % | 80,6 % |
| ARC-AGI-2 | 52,9 % | 68,8 % | 58,3 % | 77,1 % |
Ce que signifient les chiffres
GPT-5.3 Codex domine sur le codage en terminal agentique — le type de travail où un agent IA doit naviguer dans une base de code, exécuter des commandes, interpréter les sorties, corriger les erreurs et itérer. Le score de 77,3 % sur Terminal-Bench a près de 9 points d'avance sur le suivant (Gemini 3.1 Pro à 68,5 %) et 12 points d'avance sur Opus 4.6 (65,4 %).
Cependant, sur l'utilisation de l'ordinateur (OSWorld), il est nettement devancé par Claude — 64,7 % contre 72,5 % pour Sonnet 4.6. Et sur le raisonnement (ARC-AGI-2), il est loin derrière Gemini 3.1 Pro (77,1 %) et Opus 4.6 (68,8 %).
Fonctionnalités clés
1. Sessions autonomes de plusieurs heures
Les modèles de codage précédents fonctionnaient par courtes rafales — vous donnez un prompt, il répond, vous donnez un autre prompt. GPT-5.3 Codex travaille en continu sur des tâches complexes, gérant son propre flux de travail sur de nombreuses étapes.
Exemple de flux : « Migre notre système d'authentification de JWT vers OAuth 2.0, mets à jour tous les points de terminaison concernés, écris des tests et vérifie que la migration fonctionne. » GPT-5.3 Codex explorera la base de code, planifiera la migration, l'exécutera fichier par fichier, lancera des tests, corrigera les échecs et fera son rapport — potentiellement sur plusieurs heures.
2. Pilotage interactif
Vous pouvez rediriger GPT-5.3 Codex pendant qu'il travaille sans perdre le contexte. Si vous voyez qu'il s'engage sur une mauvaise voie, dites-lui de changer de direction. La conversation reste continue.
3. Cycle de vie complet du logiciel
OpenAI positionne explicitement GPT-5.3 Codex au-delà de la simple écriture de code :
- Débogage — lit les journaux d'erreurs, trace les causes racines, applique des correctifs
- Déploiement — gère les pipelines de déploiement et les configurations
- Surveillance — surveille les problèmes dans les systèmes en production
- PRD et documentation — rédige les exigences produit et la documentation
- Recherche utilisateur — synthétise les retours et les résultats de tests
- Tests — génère et exécute des suites de tests
- Métriques — analyse les données de performance
4. Auto-génération (Self-Bootstrapping)
GPT-5.3 Codex a utilisé des versions précoces de lui-même pendant son développement pour :
- Déboguer les problèmes du pipeline d'entraînement
- Gérer le déploiement du modèle
- Diagnostiquer les résultats d'évaluation
- Itérer sur le développement de jeux de manière autonome sur des millions de tokens
C'est la première fois qu'un modèle d'IA est publiquement décrit comme contribuant à sa propre création.
GPT-5.3 Codex vs. Claude Code
| Capacité | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| Codage en terminal | 77,3 % | Opus : 65,4 %, Sonnet : 59,1 % |
| Utilisation de l'ordinateur | 64,7 % | Sonnet : 72,5 %, Opus : 72,7 % |
| SWE-bench | ~80 % | Opus : 80,8 %, Sonnet : 79,6 % |
| Autonomie de plusieurs heures | Oui | Limitée |
| Pilotage interactif | Oui | Oui |
| Intégration IDE | Extension IDE Codex | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| Tâches bureautiques | Limitée | Sonnet : 1633 Elo |
| Résistance à l'injection de prompts | Standard | Niveau Opus |
| Tarification API | À déterminer | 3 $/15 $ (Sonnet), 15 $/75 $ (Opus) |
- Tâches de codage autonomes de longue durée (sessions de plusieurs heures)
- Flux de travail intensifs en terminal avec des chaînes d'outils complexes
- Déjà intégré dans l'écosystème OpenAI/ChatGPT
- Automatisation complète du cycle de vie logiciel
- Utilisation de l'ordinateur / automatisation du navigateur (72,5 % vs 64,7 %)
- Tâches bureautiques en parallèle du codage
- La sécurité de l'agent est critique (meilleure résistance à l'injection de prompts)
- Prévisibilité des coûts de l'API (tarification connue de 3 $/15 $)
Disponibilité
GPT-5.3 Codex est disponible pour les forfaits ChatGPT payants (Plus, Pro, Team, Enterprise) via :
- Application Codex (web) — interface complète d'agent autonome
- Codex CLI — agent de codage basé sur le terminal
- Extension IDE — intégré dans votre éditeur
- API — prévue dans quelques semaines (tarification à déterminer)
Ce que cela signifie pour les développeurs
La course aux agents de codage IA est bien réelle
Le 5 février 2026 a vu OpenAI et Anthropic sortir des modèles majeurs le même jour — GPT-5.3 Codex et Claude Opus 4.6. Le message est clair : les agents de codage autonomes sont le principal champ de bataille concurrentiel.
Des forces différentes, des flux de travail différents
GPT-5.3 Codex excelle dans le codage autonome basé sur le terminal lors de sessions prolongées. Claude excelle dans l'utilisation de l'ordinateur, l'intégration bureautique et la sécurité. Gemini 3.1 Pro mène sur le raisonnement et le multimodal.
Pour la plupart des développeurs, le choix dépend de votre flux de travail :
- Travail intensif en CLI/terminal → GPT-5.3 Codex
- Automatisation du navigateur + tâches mixtes → Claude Code
- Travail scientifique/axé sur le raisonnement → Gemini 3.1 Pro
Le modèle n'est que le début
La tendance parmi les trois laboratoires : le modèle seul ne suffit pas. Vous avez besoin d'outils de déploiement, de surveillance, d'analyse et de croissance autour de lui. L'agent de codage IA écrit le code, mais l'expédition d'un produit nécessite toute la pile technologique.
Expédiez ce que vous construisez. Y Build gère tout après le code : déploiement en un clic, Demo Cut pour les vidéos de produits, SEO par IA et analyses. Fonctionne avec n'importe quel outil de codage IA. Commencez gratuitement.
Sources :
- OpenAI: Introducing GPT-5.3-Codex
- OpenAI: GPT-5.3-Codex System Card
- Fortune: OpenAI GPT-5.3 Codex raises cybersecurity risks
- MarkTechPost: GPT-5.3-Codex agentic coding model
- DataCamp: GPT-5.3 Codex from coding to general work agent
- OfficeChai: Gemini 3.1 Pro Benchmarks (GPT-5.3 comparison)
- LLM Stats: GPT-5.3 Codex pricing and benchmarks
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.