GPT-5.3 Codex: El Agente de Programación Autónomo de OpenAI
OpenAI lanzó GPT-5.3 Codex el 5 de febrero de 2026 — el primer modelo de IA que ayudó a construirse a sí mismo. 77.3% en Terminal-Bench, 56.8% en SWE-Bench Pro, sesiones de programación autónomas de varias horas. Análisis completo de características, benchmarks y cómo se compara con Claude Code.
TL;DR
OpenAI lanzó GPT-5.3 Codex el 5 de febrero de 2026 — el mismo día que Anthropic lanzó Opus 4.6. Estadísticas clave:
- Terminal-Bench 2.0: 77.3% — lidera todos los modelos en programación de terminal agéntica
- SWE-Bench Pro: 56.8% — puntuación máxima en cuatro lenguajes de programación
- OSWorld: 64.7% — fuerte en uso de computadora (pero por detrás del 72.5% de Sonnet 4.6)
- 25% más rápido que GPT-5.2 Codex
- Interactivo mientras trabaja — permite dirigir al agente a mitad de la tarea sin perder el contexto
- Primer modelo con auto-arranque (self-bootstrapping) — GPT-5.3 Codex ayudó a depurar su propio entrenamiento
- Disponible en la aplicación Codex, CLI y extensión de IDE para planes de pago de ChatGPT
- Precios de la API aún no publicados
Qué anunció OpenAI
GPT-5.3 Codex no es solo un mejor modelo de programación. Es el primer modelo de OpenAI diseñado como un agente de ciclo de vida completo de software — depuración, despliegue, monitoreo, redacción de PRDs, edición de textos, ejecución de pruebas y más.
La característica principal: tareas autónomas de larga duración. Dale a GPT-5.3 Codex una tarea compleja y trabajará en ella durante horas — investigando, usando herramientas, ejecutando código y adaptando su plan sobre la marcha. Puedes dirigirlo a mitad de la tarea sin perder el contexto, como si trabajaras con un colega.
La afirmación más provocativa de OpenAI: GPT-5.3 Codex es "el primer modelo que fue instrumental en su propia creación". El equipo de Codex utilizó versiones tempranas para depurar su propio pipeline de entrenamiento, gestionar el despliegue y diagnosticar resultados de evaluación.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Benchmarks
Donde GPT-5.3 Codex lidera
| Benchmark | Qué evalúa | GPT-5.3 Codex | Mejor competidor |
|---|---|---|---|
| Terminal-Bench 2.0 | Programación de terminal agéntica | 77.3% | Gemini 3.1 Pro: 68.5% |
| SWE-Bench Pro | Programación multilenguaje | 56.8% | Gemini 3.1 Pro: 54.2% |
| HumanEval | Generación de código | 93% | — |
| GPQA | Razonamiento científico | 81% | Gemini 3.1 Pro: 94.3% |
Comparativa completa
| Benchmark | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 77.3% | 65.4% | 59.1% | 68.5% |
| SWE-Bench Pro | 56.8% | — | — | 54.2% |
| OSWorld | 64.7% | 72.7% | 72.5% | N/A |
| SWE-bench Verified | ~80% | 80.8% | 79.6% | 80.6% |
| ARC-AGI-2 | 52.9% | 68.8% | 58.3% | 77.1% |
Qué significan los números
GPT-5.3 Codex domina en programación de terminal agéntica — el tipo de trabajo donde un agente de IA necesita navegar por una base de código, ejecutar comandos, interpretar resultados, corregir errores e iterar. La puntuación de 77.3% en Terminal-Bench está casi 9 puntos por delante del siguiente mejor (Gemini 3.1 Pro con 68.5%) y 12 puntos por delante de Opus 4.6 (65.4%).
Sin embargo, en uso de computadora (OSWorld), se queda significativamente atrás de Claude — 64.7% frente al 72.5% de Sonnet 4.6. Y en razonamiento (ARC-AGI-2), está muy por detrás de Gemini 3.1 Pro (77.1%) y Opus 4.6 (68.8%).
Características clave
1. Sesiones autónomas de varias horas
Los modelos de programación anteriores trabajaban en ráfagas cortas — tú dabas un prompt, él respondía, tú dabas otro prompt. GPT-5.3 Codex trabaja continuamente en tareas complejas, gestionando su propio flujo de trabajo a través de muchos pasos.
Ejemplo de flujo de trabajo: "Migra nuestro sistema de autenticación de JWT a OAuth 2.0, actualiza todos los endpoints afectados, escribe pruebas y verifica que la migración funcione". GPT-5.3 Codex investigará la base de código, planificará la migración, la ejecutará archivo por archivo, ejecutará las pruebas, corregirá los fallos e informará — potencialmente durante horas.
2. Dirección interactiva
Puedes redireccionar a GPT-5.3 Codex mientras está trabajando sin perder el contexto. Si ves que va por el camino equivocado, dile que cambie de dirección. La conversación se mantiene continua.
3. Ciclo de vida completo del software
OpenAI posiciona explícitamente a GPT-5.3 Codex más allá de la simple escritura de código:
- Depuración — lee logs de errores, rastrea causas raíz, aplica correcciones
- Despliegue — gestiona pipelines de despliegue y configuraciones
- Monitoreo — vigila problemas en sistemas en ejecución
- PRDs y documentación — escribe requisitos de producto y documentación
- Investigación de usuarios — sintetiza feedback y resultados de pruebas
- Pruebas — genera y ejecuta suites de pruebas
- Métricas — analiza datos de rendimiento
4. Auto-arranque (Self-Bootstrapping)
GPT-5.3 Codex utilizó versiones tempranas de sí mismo durante el desarrollo para:
- Depurar problemas en el pipeline de entrenamiento
- Gestionar el despliegue del modelo
- Diagnosticar resultados de evaluación
- Iterar en el desarrollo de videojuegos de forma autónoma a lo largo de millones de tokens
Esta es la primera vez que un modelo de IA se describe públicamente como contribuyente a su propia creación.
GPT-5.3 Codex vs. Claude Code
| Capacidad | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| Programación de terminal | 77.3% | Opus: 65.4%, Sonnet: 59.1% |
| Uso de computadora | 64.7% | Sonnet: 72.5%, Opus: 72.7% |
| SWE-bench | ~80% | Opus: 80.8%, Sonnet: 79.6% |
| Autonomía de varias horas | Sí | Limitada |
| Dirección interactiva | Sí | Sí |
| Integración con IDE | Extensión Codex IDE | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| Tareas de oficina | Limitadas | Sonnet: 1633 Elo |
| Resistencia a inyección de prompts | Estándar | Nivel Opus |
| Precios de API | Por determinar | $3/$15 (Sonnet), $15/$75 (Opus) |
- Tareas de programación autónomas de larga duración (sesiones de varias horas)
- Flujos de trabajo intensivos en terminal con cadenas de herramientas complejas
- Ya estés en el ecosistema de OpenAI/ChatGPT
- Automatización del ciclo de vida completo del software
- Uso de computadora / automatización de navegador (72.5% vs 64.7%)
- Tareas de oficina junto con la programación
- La seguridad del agente es crítica (mejor resistencia a la inyección de prompts)
- Predictibilidad del coste de la API (precios conocidos de $3/$15)
Disponibilidad
GPT-5.3 Codex está disponible para los planes de pago de ChatGPT (Plus, Pro, Team, Enterprise) a través de:
- Aplicación Codex (web) — interfaz completa de agente autónomo
- Codex CLI — agente de programación basado en terminal
- Extensión de IDE — integrada en tu editor
- API — disponible en las próximas semanas (precios por determinar)
Qué significa para los desarrolladores
La carrera de los agentes de programación con IA es real
El 5 de febrero de 2026 vio cómo tanto OpenAI como Anthropic lanzaban modelos importantes el mismo día — GPT-5.3 Codex y Claude Opus 4.6. El mensaje es claro: los agentes de programación autónomos son el principal campo de batalla competitivo.
Diferentes fortalezas, diferentes flujos de trabajo
GPT-5.3 Codex sobresale en la programación autónoma basada en terminal durante sesiones largas. Claude sobresale en el uso de la computadora, la integración con la oficina y la seguridad. Gemini 3.1 Pro lidera en razonamiento y multimodalidad.
Para la mayoría de los desarrolladores, la elección depende de su flujo de trabajo:
- Trabajo intensivo en CLI/terminal → GPT-5.3 Codex
- Automatización de navegador + tareas mixtas → Claude Code
- Trabajo científico/pesado en razonamiento → Gemini 3.1 Pro
El modelo es solo el comienzo
La tendencia en los tres laboratorios: el modelo por sí solo no es suficiente. Necesitas herramientas de despliegue, monitoreo, analítica y crecimiento a su alrededor. El agente de programación de IA escribe el código, pero lanzar un producto requiere todo el stack.
Lanza lo que construyes. Y Build se encarga de todo lo que sigue al código: despliegue en un clic, Demo Cut para videos de producto, SEO con IA y analítica. Funciona con cualquier herramienta de programación con IA. Empieza gratis.
Fuentes:
- OpenAI: Introducing GPT-5.3-Codex
- OpenAI: GPT-5.3-Codex System Card
- Fortune: OpenAI GPT-5.3 Codex raises cybersecurity risks
- MarkTechPost: GPT-5.3-Codex agentic coding model
- DataCamp: GPT-5.3 Codex from coding to general work agent
- OfficeChai: Gemini 3.1 Pro Benchmarks (GPT-5.3 comparison)
- LLM Stats: GPT-5.3 Codex pricing and benchmarks
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.