Guía de GPT-5.4: El modelo de agente autónomo de OpenAI (2026)
GPT-5.4 obtiene un 75% en OSWorld, superando a los humanos en el uso de computadoras. Contexto de 1M, $2.50/MTok, 5 variantes de modelo. Benchmarks completos, precios y guía comparativa.
TL;DR
OpenAI lanzó GPT-5.4 el 5 de marzo de 2026 — el primer modelo de propósito general en superar a los humanos en el uso autónomo de computadoras. Estadísticas clave:
| Característica | Detalle |
|---|---|
| OSWorld-Verified | 75.0% — supera la base de referencia humana (72.4%) |
| SWE-bench Pro | 57.7% — sólido en programación, pero por detrás de Claude Opus 4.6 (80.8%) |
| Ventana de Contexto | Hasta 1.05M de tokens (272K estándar, 1M extendido) |
| Computer Use | Nativo, de vanguardia — el primero integrado en un modelo general |
| Eficiencia de Tokens | Significativamente menos tokens que GPT-5.2 para tareas equivalentes |
| Precio de la API | $2.50 entrada / $15.00 salida por cada 1M de tokens |
| Variantes | Standard, Thinking, Pro, Mini, Nano |
| Pensamiento Interactivo | Plan previo + dirección durante la respuesta |
¿Qué es GPT-5.4?
GPT-5.4 es el modelo de lenguaje de gran tamaño insignia de OpenAI, lanzado el 5 de marzo de 2026. Combina lo mejor de las fortalezas en programación de GPT-5.3 Codex con capacidades revolucionarias de uso autónomo de computadoras, una ventana de contexto de 1 millón de tokens y un nuevo sistema de pensamiento interactivo.
El titular: GPT-5.4 es el primer modelo de IA de propósito general que supera el rendimiento humano en tareas de computadora de escritorio. Obtiene un 75.0% en OSWorld-Verified — un benchmark donde los evaluadores humanos expertos obtienen un 72.4%. Ningún otro modelo había cruzado ese umbral de forma limpia anteriormente.
Esto representa una mejora de 28 puntos respecto a GPT-5.2 (47.3%) en menos de cuatro meses. El modelo puede analizar coordenadas de pantalla a partir de capturas de pantalla y emitir comandos de ratón y teclado directamente, lo que le permite navegar por archivos, navegadores, terminales y software de productividad de forma autónoma.
Características Clave
Uso Nativo de Computadoras (Computer Use)
A diferencia de los modelos anteriores que necesitaban herramientas externas para el control de la computadora, GPT-5.4 tiene capacidades de computer_use integradas. En la aplicación Codex y a través de la API, el modelo puede:
- Navegar por entornos de escritorio mediante capturas de pantalla y acciones de teclado/ratón.
- Operar a través de múltiples aplicaciones en secuencia.
- Completar flujos de trabajo de varios pasos (gestión de archivos, tareas del navegador, operaciones de terminal).
- Manejar software de productividad como hojas de cálculo, presentaciones y documentos.
Ventana de Contexto de 1 Millón de Tokens
GPT-5.4 admite hasta 1.05M de tokens de contexto. La ventana estándar es de 272K tokens; las solicitudes que superan este umbral se procesan al doble de la tasa de entrada normal. Este contexto masivo es crítico para flujos de trabajo de agentes donde el modelo necesita mantener largos historiales de uso de herramientas, grandes bases de código o conjuntos extensos de documentos en memoria.
Pensamiento Interactivo
GPT-5.4 Thinking introduce un nuevo paradigma: el modelo proporciona un plan previo de su razonamiento, y usted puede dirigirlo a mitad de la respuesta. Añada instrucciones, corrija el rumbo o refine la dirección sin tener que empezar de nuevo. Esta es una mejora significativa en la calidad de vida para tareas complejas de varios pasos.
Eficiencia de Tokens Mejorada
OpenAI informa que GPT-5.4 utiliza significativamente menos tokens para resolver problemas en comparación con GPT-5.2, junto con una reducción del 33% en errores fácticos. Para despliegues en producción, esto significa menores costes por tarea incluso antes de contabilizar los precios competitivos.
Benchmarks
Dónde Lidera GPT-5.4
| Benchmark | Qué Evalúa | GPT-5.4 | Mejor Competidor |
|---|---|---|---|
| OSWorld-Verified | Uso de computadora de escritorio | 75.0% | Claude Opus 4.6: 72.7% |
| Toolathlon | Uso de herramientas/API de varios pasos | Puntuación máxima | — |
| GDPval | Trabajo de conocimiento | 83% | — |
Comparativa Completa de Modelos
| Benchmark | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.7% | N/A |
| SWE-bench Verified | ~80% | 80.8% | 80.6% |
| SWE-bench Pro | 57.7% | ~45% | 54.2% |
| ARC-AGI-2 | 52.9% | 68.8% | 77.1% |
| GDPval | 83% | — | — |
Qué Significan los Números
GPT-5.4 es el primer modelo que maneja de manera creíble el uso de computadoras, la programación y el trabajo de conocimiento al nivel de frontera de forma simultánea. La puntuación de 75% en OSWorld es el hito más claro: significa que el modelo puede completar tres de cada cuatro tareas reales de escritorio que incluso a los humanos expertos les resultan desafiantes.
Sin embargo, el panorama tiene matices. En SWE-bench Verified (programación del mundo real), tanto Claude Opus 4.6 como Gemini 3.1 Pro superan significativamente a GPT-5.4 con un 80.8% y 80.6% respectivamente. En razonamiento abstracto (ARC-AGI-2), GPT-5.4 queda por detrás de Claude Opus 4.6 por 16 puntos porcentuales y de Gemini 3.1 Pro por más de 24 puntos.
La conclusión: GPT-5.4 gana en control autónomo de computadoras y uso práctico de herramientas, pero no es el mejor modelo para todas las tareas.
Variantes del Modelo y Precios
GPT-5.4 se distribuye en cinco variantes, cada una dirigida a diferentes casos de uso y presupuestos:
| Variante | Entrada (por 1M tokens) | Salida (por 1M tokens) | Ideal Para |
|---|---|---|---|
| GPT-5.4 Standard | $2.50 | $15.00 | Propósito general, uso de computadoras, flujos de trabajo de agentes |
| GPT-5.4 Thinking | $2.50 | $15.00 | Razonamiento complejo con dirección interactiva del plan |
| GPT-5.4 Pro | $30.00 | $180.00 | Legal, médico, financiero — máxima precisión |
| GPT-5.4 Mini | $0.75 | $4.50 | Cargas de trabajo de alto volumen y sensibles a la latencia |
| GPT-5.4 Nano | TBD | TBD | Casos de uso en el borde (edge) y embebidos |
- Los prompts que superen los 272K tokens se cobran al doble de la tasa de entrada estándar ($5.00/MTok para Standard).
- Los endpoints de residencia de datos regionales conllevan un recargo del 10% en todas las variantes.
- GPT-5.4 Mini está disponible para usuarios de la versión gratuita de ChatGPT; Nano es solo para API.
Comparación de Costes: GPT-5.4 vs Claude Opus 4.6
Para una carga de trabajo diaria típica:
| GPT-5.4 | Claude Opus 4.6 | |
|---|---|---|
| Coste diario promedio | ~$5.50 | ~$10.00 |
| Coste mensual promedio | ~$165 | ~$300 |
| Relación de coste | 1x | ~1.8x |
GPT-5.4 es aproximadamente un 50% más barato que Claude Opus 4.6 para un rendimiento de tokens equivalente. La variante Mini lleva esto más allá, obteniendo un 54.38% en SWE-bench Pro a un coste aproximadamente 6 veces menor.
GPT-5.4 vs Claude Opus 4.6: ¿Cuándo usar cuál?
Esta es la pregunta que la mayoría de los equipos se hacen en abril de 2026. La respuesta depende de su carga de trabajo.
Elija GPT-5.4 si necesita:
- Automatización de escritorio y uso de computadoras — 75.0% en OSWorld frente al 72.7% de Opus 4.6.
- Llamadas a herramientas y orquestación de APIs — mejor precisión en menos pasos en Toolathlon.
- Eficiencia de costes — aproximadamente la mitad del coste por token de Opus 4.6.
- Razonamiento eficiente en tokens — menos tokens por problema significan facturas más bajas.
- Prototipado rápido — iteración rápida con menor sobrecarga.
Elija Claude Opus 4.6 si necesita:
- Refactorización de código compleja en múltiples archivos — lidera SWE-bench Verified con un 80.8%.
- Coherencia en contextos largos — más fuerte manteniendo la calidad en contextos muy extensos.
- Razonamiento abstracto y novedoso — ventaja de 16 puntos en ARC-AGI-2.
- Búsqueda agéntica y arquitectura de código profunda — destaca en tareas que requieren una comprensión profunda.
- Calidad de escritura y matices — clasificado como el nº 1 en satisfacción de usuario en Chatbot Arena.
Resumen Comparativo Directo
| Dimensión | Ganador | Margen |
|---|---|---|
| Uso de Computadoras (OSWorld) | GPT-5.4 | 75.0% vs 72.7% |
| Programación (SWE-bench Verified) | Claude Opus 4.6 | 80.8% vs ~80% |
| Razonamiento Abstracto (ARC-AGI-2) | Claude Opus 4.6 | 68.8% vs 52.9% |
| Llamadas a Herramientas (Toolathlon) | GPT-5.4 | Menos pasos, mejor precisión |
| Trabajo de Conocimiento (GDPval) | GPT-5.4 | 83% |
| Precios | GPT-5.4 | ~50% más barato |
| Satisfacción de Usuario | Claude Opus 4.6 | #1 Chatbot Arena |
Cómo Acceder a GPT-5.4
GPT-5.4 está disponible a través de:
- ChatGPT — GPT-5.4 Thinking es el modelo predeterminado para usuarios Plus, Pro y Team. Mini está disponible para usuarios de la capa gratuita.
- API de OpenAI — Las cinco variantes son accesibles a través de los endpoints estándar de chat y completions.
- App Codex — Capacidades completas de uso de computadoras con el agente de escritorio.
- OpenRouter — Acceso de terceros a tarifas competitivas.
computer_use y proporcionar capturas de pantalla como entradas de imagen. El modelo devuelve acciones estructuradas (clic, escribir, desplazar) que su aplicación traduce en eventos del sistema.
FAQ
¿Es GPT-5.4 mejor que Claude Opus 4.6?
Depende de la tarea. GPT-5.4 gana en uso de computadoras, llamadas a herramientas y eficiencia de costes. Claude Opus 4.6 gana en programación compleja, razonamiento abstracto y calidad de escritura. Para la mayoría de los equipos, la elección depende de si su carga de trabajo principal es la automatización de escritorio (GPT-5.4) o la ingeniería de software profunda (Opus 4.6).
¿Cuánto cuesta GPT-5.4?
El modelo estándar cuesta $2.50 por millón de tokens de entrada y $15.00 por millón de tokens de salida. La variante Pro cuesta $30/$180 por MTok. Mini cuesta $0.75/$4.50 por MTok. Los prompts que superen los 272K tokens se cobran al doble de la tasa de entrada.
¿Puede GPT-5.4 realmente usar una computadora mejor que los humanos?
En el benchmark OSWorld-Verified, sí — 75.0% frente a la base de referencia de expertos humanos del 72.4%. Sin embargo, los benchmarks miden categorías de tareas específicas. El uso de computadoras en el mundo real implica juicio, contexto y adaptabilidad que los benchmarks no capturan por completo. Es mejor considerarlo como sobrehumano en tareas de escritorio estructuradas, no como un reemplazo total del uso humano de computadoras.
¿Cuál es la ventana de contexto de GPT-5.4?
Hasta 1.05 millones de tokens. El nivel estándar es de 272K tokens. Extenderse más allá de 272K duplica el coste del token de entrada. El contexto completo de 1M es crítico para flujos de trabajo de agentes que acumulan largos historiales de interacción.
¿Debería actualizar desde GPT-5.3 Codex?
Si su carga de trabajo implica el uso de computadoras o la orquestación de múltiples herramientas, sí. El salto del 64.7% al 75.0% en OSWorld es sustancial. Para tareas de programación pura, la mejora sobre GPT-5.3 Codex es más incremental — SWE-bench Pro pasó del 56.8% al 57.7%. Evalúe según su caso de uso específico.
¿Qué variantes del modelo están disponibles?
Cinco: Standard, Thinking, Pro, Mini y Nano. Standard y Thinking comparten el mismo precio y son los modelos principales para la mayoría de los casos de uso. Pro es el nivel premium para la máxima precisión. Mini se dirige a despliegues de producción sensibles al coste. Nano está diseñado para aplicaciones en el borde (edge) y embebidas.
Conclusión
GPT-5.4 marca un verdadero punto de inflexión para los agentes autónomos de IA. Es el primer modelo de propósito general que supera a los expertos humanos en el uso de computadoras de escritorio, y lo hace siendo un 50% más barato que su principal competidor. La alineación de cinco variantes significa que hay un GPT-5.4 para cada presupuesto y requisito de latencia.
Dicho esto, no es el mejor en todo. Claude Opus 4.6 sigue siendo la opción más sólida para ingeniería de software compleja y razonamiento abstracto. Gemini 3.1 Pro todavía lidera en varios benchmarks de razonamiento. La respuesta correcta para la mayoría de los equipos no es "qué modelo es el mejor", sino "qué modelo es el mejor para esta tarea".
Si está creando productos impulsados por IA y desea aprovechar modelos como GPT-5.4 y Claude Opus 4.6 sin empantanarse en la infraestructura, Y Build le ayuda a realizar lanzamientos más rápido. Proporcionamos las herramientas y la plataforma para construir, desplegar e iterar aplicaciones de IA, para que pueda centrarse en el producto y no en la fontanería técnica.
Fuentes: OpenAI GPT-5.4 Announcement, OpenAI API Pricing, NxCode GPT-5.4 Complete Guide, NxCode GPT-5.4 vs Claude Opus 4.6, DataCamp GPT-5.4 Overview, Artificial Analysis GPT-5.4, MindStudio Benchmark Comparison, Nerd Level Tech: GPT-5.4 Beats Humans