GPT-5.3 Codex: El Agente de Programación Autónomo de OpenAI

TL;DR

OpenAI lanzó GPT-5.3 Codex el 5 de febrero de 2026 — el mismo día que Anthropic lanzó Opus 4.6. Estadísticas clave:

Terminal-Bench 2.0: 77.3% — lidera todos los modelos en programación de terminal agéntica
SWE-Bench Pro: 56.8% — puntuación máxima en cuatro lenguajes de programación
OSWorld: 64.7% — fuerte en uso de computadora (pero por detrás del 72.5% de Sonnet 4.6)
25% más rápido que GPT-5.2 Codex
Interactivo mientras trabaja — permite dirigir al agente a mitad de la tarea sin perder el contexto
Primer modelo con auto-arranque (self-bootstrapping) — GPT-5.3 Codex ayudó a depurar su propio entrenamiento
Disponible en la aplicación Codex, CLI y extensión de IDE para planes de pago de ChatGPT
Precios de la API aún no publicados

Qué anunció OpenAI

GPT-5.3 Codex no es solo un mejor modelo de programación. Es el primer modelo de OpenAI diseñado como un agente de ciclo de vida completo de software — depuración, despliegue, monitoreo, redacción de PRDs, edición de textos, ejecución de pruebas y más.

La característica principal: tareas autónomas de larga duración. Dale a GPT-5.3 Codex una tarea compleja y trabajará en ella durante horas — investigando, usando herramientas, ejecutando código y adaptando su plan sobre la marcha. Puedes dirigirlo a mitad de la tarea sin perder el contexto, como si trabajaras con un colega.

La afirmación más provocativa de OpenAI: GPT-5.3 Codex es "el primer modelo que fue instrumental en su propia creación". El equipo de Codex utilizó versiones tempranas para depurar su propio pipeline de entrenamiento, gestionar el despliegue y diagnosticar resultados de evaluación.

Benchmarks

Donde GPT-5.3 Codex lidera

Benchmark	Qué evalúa	GPT-5.3 Codex	Mejor competidor
Terminal-Bench 2.0	Programación de terminal agéntica	77.3%	Gemini 3.1 Pro: 68.5%
SWE-Bench Pro	Programación multilenguaje	56.8%	Gemini 3.1 Pro: 54.2%
HumanEval	Generación de código	93%	—
GPQA	Razonamiento científico	81%	Gemini 3.1 Pro: 94.3%

Comparativa completa

Benchmark	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	77.3%	65.4%	59.1%	68.5%
SWE-Bench Pro	56.8%	—	—	54.2%
OSWorld	64.7%	72.7%	72.5%	N/A
SWE-bench Verified	~80%	80.8%	79.6%	80.6%
ARC-AGI-2	52.9%	68.8%	58.3%	77.1%

Qué significan los números

GPT-5.3 Codex domina en programación de terminal agéntica — el tipo de trabajo donde un agente de IA necesita navegar por una base de código, ejecutar comandos, interpretar resultados, corregir errores e iterar. La puntuación de 77.3% en Terminal-Bench está casi 9 puntos por delante del siguiente mejor (Gemini 3.1 Pro con 68.5%) y 12 puntos por delante de Opus 4.6 (65.4%).

Sin embargo, en uso de computadora (OSWorld), se queda significativamente atrás de Claude — 64.7% frente al 72.5% de Sonnet 4.6. Y en razonamiento (ARC-AGI-2), está muy por detrás de Gemini 3.1 Pro (77.1%) y Opus 4.6 (68.8%).

Características clave

1. Sesiones autónomas de varias horas

Los modelos de programación anteriores trabajaban en ráfagas cortas — tú dabas un prompt, él respondía, tú dabas otro prompt. GPT-5.3 Codex trabaja continuamente en tareas complejas, gestionando su propio flujo de trabajo a través de muchos pasos.

Ejemplo de flujo de trabajo: "Migra nuestro sistema de autenticación de JWT a OAuth 2.0, actualiza todos los endpoints afectados, escribe pruebas y verifica que la migración funcione". GPT-5.3 Codex investigará la base de código, planificará la migración, la ejecutará archivo por archivo, ejecutará las pruebas, corregirá los fallos e informará — potencialmente durante horas.

2. Dirección interactiva

Puedes redireccionar a GPT-5.3 Codex mientras está trabajando sin perder el contexto. Si ves que va por el camino equivocado, dile que cambie de dirección. La conversación se mantiene continua.

3. Ciclo de vida completo del software

OpenAI posiciona explícitamente a GPT-5.3 Codex más allá de la simple escritura de código:

Depuración — lee logs de errores, rastrea causas raíz, aplica correcciones
Despliegue — gestiona pipelines de despliegue y configuraciones
Monitoreo — vigila problemas en sistemas en ejecución
PRDs y documentación — escribe requisitos de producto y documentación
Investigación de usuarios — sintetiza feedback y resultados de pruebas
Pruebas — genera y ejecuta suites de pruebas
Métricas — analiza datos de rendimiento

4. Auto-arranque (Self-Bootstrapping)

GPT-5.3 Codex utilizó versiones tempranas de sí mismo durante el desarrollo para:

Depurar problemas en el pipeline de entrenamiento

Gestionar el despliegue del modelo

Diagnosticar resultados de evaluación

Iterar en el desarrollo de videojuegos de forma autónoma a lo largo de millones de tokens

Esta es la primera vez que un modelo de IA se describe públicamente como contribuyente a su propia creación.

GPT-5.3 Codex vs. Claude Code

Capacidad	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
Programación de terminal	77.3%	Opus: 65.4%, Sonnet: 59.1%
Uso de computadora	64.7%	Sonnet: 72.5%, Opus: 72.7%
SWE-bench	~80%	Opus: 80.8%, Sonnet: 79.6%
Autonomía de varias horas	Sí	Limitada
Dirección interactiva	Sí	Sí
Integración con IDE	Extensión Codex IDE	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
Tareas de oficina	Limitadas	Sonnet: 1633 Elo
Resistencia a inyección de prompts	Estándar	Nivel Opus
Precios de API	Por determinar	$3/$15 (Sonnet), $15/$75 (Opus)

Elige GPT-5.3 Codex cuando:

Tareas de programación autónomas de larga duración (sesiones de varias horas)
Flujos de trabajo intensivos en terminal con cadenas de herramientas complejas
Ya estés en el ecosistema de OpenAI/ChatGPT
Automatización del ciclo de vida completo del software

Elige Claude Code cuando:

Uso de computadora / automatización de navegador (72.5% vs 64.7%)
Tareas de oficina junto con la programación
La seguridad del agente es crítica (mejor resistencia a la inyección de prompts)
Predictibilidad del coste de la API (precios conocidos de $3/$15)

Disponibilidad

GPT-5.3 Codex está disponible para los planes de pago de ChatGPT (Plus, Pro, Team, Enterprise) a través de:

Aplicación Codex (web) — interfaz completa de agente autónomo
Codex CLI — agente de programación basado en terminal
Extensión de IDE — integrada en tu editor
API — disponible en las próximas semanas (precios por determinar)

No hay acceso en el nivel gratuito actualmente.

Qué significa para los desarrolladores

La carrera de los agentes de programación con IA es real

El 5 de febrero de 2026 vio cómo tanto OpenAI como Anthropic lanzaban modelos importantes el mismo día — GPT-5.3 Codex y Claude Opus 4.6. El mensaje es claro: los agentes de programación autónomos son el principal campo de batalla competitivo.

Diferentes fortalezas, diferentes flujos de trabajo

GPT-5.3 Codex sobresale en la programación autónoma basada en terminal durante sesiones largas. Claude sobresale en el uso de la computadora, la integración con la oficina y la seguridad. Gemini 3.1 Pro lidera en razonamiento y multimodalidad.

Para la mayoría de los desarrolladores, la elección depende de su flujo de trabajo:

Trabajo intensivo en CLI/terminal → GPT-5.3 Codex

Automatización de navegador + tareas mixtas → Claude Code

Trabajo científico/pesado en razonamiento → Gemini 3.1 Pro

El modelo es solo el comienzo

La tendencia en los tres laboratorios: el modelo por sí solo no es suficiente. Necesitas herramientas de despliegue, monitoreo, analítica y crecimiento a su alrededor. El agente de programación de IA escribe el código, pero lanzar un producto requiere todo el stack.

Lanza lo que construyes. Y Build se encarga de todo lo que sigue al código: despliegue en un clic, Demo Cut para videos de producto, SEO con IA y analítica. Funciona con cualquier herramienta de programación con IA. Empieza gratis.

Fuentes: