GPT-5.3 Codex : l'agent de codage autonome d'OpenAI

TL;DR

OpenAI a lancé GPT-5.3 Codex le 5 février 2026 — le jour même où Anthropic a sorti Opus 4.6. Statistiques clés :

Terminal-Bench 2.0 : 77,3 % — domine tous les modèles sur le codage en terminal agentique
SWE-Bench Pro : 56,8 % — meilleur score sur quatre langages de programmation
OSWorld : 64,7 % — utilisation robuste de l'ordinateur (mais derrière les 72,5 % de Sonnet 4.6)
25 % plus rapide que GPT-5.2 Codex
Interactif pendant le travail — dirigez l'agent en cours de tâche sans perdre le contexte
Premier modèle auto-généré (self-bootstrapping) — GPT-5.3 Codex a aidé à déboguer son propre entraînement
Disponible dans l'application Codex, en CLI et via l'extension IDE pour les forfaits ChatGPT payants
Tarification de l'API non encore publiée

Ce qu'OpenAI a annoncé

GPT-5.3 Codex n'est pas seulement un meilleur modèle de codage. C'est le premier modèle d'OpenAI conçu comme un agent de cycle de vie complet du logiciel — débogage, déploiement, surveillance, rédaction de PRD, édition de contenu, exécution de tests, et plus encore.

La fonctionnalité phare : tâches autonomes de longue durée. Donnez à GPT-5.3 Codex une tâche complexe, et il y travaillera pendant des heures — effectuant des recherches, utilisant des outils, exécutant du code et adaptant son plan au fur et à mesure. Vous pouvez le diriger en cours de tâche sans perdre le contexte, comme si vous travailliez avec un collègue.

La déclaration la plus provocatrice d'OpenAI : GPT-5.3 Codex est « le premier modèle ayant contribué de manière instrumentale à sa propre création ». L'équipe Codex a utilisé des versions préliminaires pour déboguer son propre pipeline d'entraînement, gérer le déploiement et diagnostiquer les résultats d'évaluation.

Benchmarks

Là où GPT-5.3 Codex domine

Benchmark	Ce qu'il teste	GPT-5.3 Codex	Meilleur concurrent
Terminal-Bench 2.0	Codage en terminal agentique	77,3 %	Gemini 3.1 Pro : 68,5 %
SWE-Bench Pro	Codage multi-langage	56,8 %	Gemini 3.1 Pro : 54,2 %
HumanEval	Génération de code	93 %	—
GPQA	Raisonnement scientifique	81 %	Gemini 3.1 Pro : 94,3 %

Comparaison complète

Benchmark	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	77,3 %	65,4 %	59,1 %	68,5 %
SWE-Bench Pro	56,8 %	—	—	54,2 %
OSWorld	64,7 %	72,7 %	72,5 %	N/A
SWE-bench Verified	~80 %	80,8 %	79,6 %	80,6 %
ARC-AGI-2	52,9 %	68,8 %	58,3 %	77,1 %

Ce que signifient les chiffres

GPT-5.3 Codex domine sur le codage en terminal agentique — le type de travail où un agent IA doit naviguer dans une base de code, exécuter des commandes, interpréter les sorties, corriger les erreurs et itérer. Le score de 77,3 % sur Terminal-Bench a près de 9 points d'avance sur le suivant (Gemini 3.1 Pro à 68,5 %) et 12 points d'avance sur Opus 4.6 (65,4 %).

Cependant, sur l'utilisation de l'ordinateur (OSWorld), il est nettement devancé par Claude — 64,7 % contre 72,5 % pour Sonnet 4.6. Et sur le raisonnement (ARC-AGI-2), il est loin derrière Gemini 3.1 Pro (77,1 %) et Opus 4.6 (68,8 %).

Fonctionnalités clés

1. Sessions autonomes de plusieurs heures

Les modèles de codage précédents fonctionnaient par courtes rafales — vous donnez un prompt, il répond, vous donnez un autre prompt. GPT-5.3 Codex travaille en continu sur des tâches complexes, gérant son propre flux de travail sur de nombreuses étapes.

Exemple de flux : « Migre notre système d'authentification de JWT vers OAuth 2.0, mets à jour tous les points de terminaison concernés, écris des tests et vérifie que la migration fonctionne. » GPT-5.3 Codex explorera la base de code, planifiera la migration, l'exécutera fichier par fichier, lancera des tests, corrigera les échecs et fera son rapport — potentiellement sur plusieurs heures.

2. Pilotage interactif

Vous pouvez rediriger GPT-5.3 Codex pendant qu'il travaille sans perdre le contexte. Si vous voyez qu'il s'engage sur une mauvaise voie, dites-lui de changer de direction. La conversation reste continue.

3. Cycle de vie complet du logiciel

OpenAI positionne explicitement GPT-5.3 Codex au-delà de la simple écriture de code :

Débogage — lit les journaux d'erreurs, trace les causes racines, applique des correctifs
Déploiement — gère les pipelines de déploiement et les configurations
Surveillance — surveille les problèmes dans les systèmes en production
PRD et documentation — rédige les exigences produit et la documentation
Recherche utilisateur — synthétise les retours et les résultats de tests
Tests — génère et exécute des suites de tests
Métriques — analyse les données de performance

4. Auto-génération (Self-Bootstrapping)

GPT-5.3 Codex a utilisé des versions précoces de lui-même pendant son développement pour :

Déboguer les problèmes du pipeline d'entraînement

Gérer le déploiement du modèle

Diagnostiquer les résultats d'évaluation

Itérer sur le développement de jeux de manière autonome sur des millions de tokens

C'est la première fois qu'un modèle d'IA est publiquement décrit comme contribuant à sa propre création.

GPT-5.3 Codex vs. Claude Code

Capacité	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
Codage en terminal	77,3 %	Opus : 65,4 %, Sonnet : 59,1 %
Utilisation de l'ordinateur	64,7 %	Sonnet : 72,5 %, Opus : 72,7 %
SWE-bench	~80 %	Opus : 80,8 %, Sonnet : 79,6 %
Autonomie de plusieurs heures	Oui	Limitée
Pilotage interactif	Oui	Oui
Intégration IDE	Extension IDE Codex	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
Tâches bureautiques	Limitée	Sonnet : 1633 Elo
Résistance à l'injection de prompts	Standard	Niveau Opus
Tarification API	À déterminer	3 $/15 $ (Sonnet), 15 $/75 $ (Opus)

Choisissez GPT-5.3 Codex quand :

Tâches de codage autonomes de longue durée (sessions de plusieurs heures)
Flux de travail intensifs en terminal avec des chaînes d'outils complexes
Déjà intégré dans l'écosystème OpenAI/ChatGPT
Automatisation complète du cycle de vie logiciel

Choisissez Claude Code quand :

Utilisation de l'ordinateur / automatisation du navigateur (72,5 % vs 64,7 %)
Tâches bureautiques en parallèle du codage
La sécurité de l'agent est critique (meilleure résistance à l'injection de prompts)
Prévisibilité des coûts de l'API (tarification connue de 3 $/15 $)

Disponibilité

GPT-5.3 Codex est disponible pour les forfaits ChatGPT payants (Plus, Pro, Team, Enterprise) via :

Application Codex (web) — interface complète d'agent autonome
Codex CLI — agent de codage basé sur le terminal
Extension IDE — intégré dans votre éditeur
API — prévue dans quelques semaines (tarification à déterminer)

Aucun accès gratuit n'est disponible actuellement.

Ce que cela signifie pour les développeurs

La course aux agents de codage IA est bien réelle

Le 5 février 2026 a vu OpenAI et Anthropic sortir des modèles majeurs le même jour — GPT-5.3 Codex et Claude Opus 4.6. Le message est clair : les agents de codage autonomes sont le principal champ de bataille concurrentiel.

Des forces différentes, des flux de travail différents

GPT-5.3 Codex excelle dans le codage autonome basé sur le terminal lors de sessions prolongées. Claude excelle dans l'utilisation de l'ordinateur, l'intégration bureautique et la sécurité. Gemini 3.1 Pro mène sur le raisonnement et le multimodal.

Pour la plupart des développeurs, le choix dépend de votre flux de travail :

Travail intensif en CLI/terminal → GPT-5.3 Codex

Automatisation du navigateur + tâches mixtes → Claude Code

Travail scientifique/axé sur le raisonnement → Gemini 3.1 Pro

Le modèle n'est que le début

La tendance parmi les trois laboratoires : le modèle seul ne suffit pas. Vous avez besoin d'outils de déploiement, de surveillance, d'analyse et de croissance autour de lui. L'agent de codage IA écrit le code, mais l'expédition d'un produit nécessite toute la pile technologique.

Expédiez ce que vous construisez. Y Build gère tout après le code : déploiement en un clic, Demo Cut pour les vidéos de produits, SEO par IA et analyses. Fonctionne avec n'importe quel outil de codage IA. Commencez gratuitement.

Sources :