Harness Engineering: Construyendo sistemas alrededor de agentes de IA (2026)
Harness engineering es la forma en que los mejores equipos logran que los agentes de codificación de IA sean confiables. Aprende la fórmula Agente = Modelo + Harness, componentes principales y resultados reales de OpenAI, Stripe y Anthropic.
TL;DR
| Concepto | Resumen |
|---|---|
| Fórmula | Agente = Modelo + Harness |
| ¿Qué es un harness? | Todo lo que rodea al modelo de IA: contexto, restricciones, herramientas, bucles de verificación |
| Dato clave | LangChain mejoró la precisión del agente del 52.8% → 66.5% cambiando solo el harness, no el modelo |
| Quiénes lo usan | OpenAI (Codex), Stripe (más de 1,000 PRs/semana), Anthropic, Vercel |
| Componentes núcleo | Ingeniería de contexto, restricciones arquitectónicas, herramientas/MCP, sub-agentes, hooks, autoverificación |
¿Qué es el Harness Engineering?
Harness engineering es la disciplina de construir sistemas, herramientas, restricciones y bucles de retroalimentación alrededor de los agentes de codificación de IA para que sean confiables y productivos.
El término fue acuñado por Mitchell Hashimoto (co-fundador de HashiCorp) y ganó atención generalizada cuando OpenAI publicó su artículo sobre Codex sobre el tema a principios de 2026.
La idea central es simple:
Agente = Modelo + Harness
El modelo proporciona la inteligencia. El harness hace que esa inteligencia sea útil. Un mejor harness a menudo importa más que un mejor modelo.
Por qué es importante ahora
En 2025, todos los equipos adoptaron agentes de codificación de IA. En 2026, los equipos ganadores son aquellos que diseñaron los entornos de sus agentes — no solo los que eligieron el mejor modelo.
El principio rector de Mitchell Hashimoto:
"Cada vez que encuentres que un agente comete un error, tómate el tiempo para diseñar una solución de modo que el agente nunca vuelva a cometer ese error".
Esto no es prompt engineering. Es ingeniería de sistemas para la IA.
La evidencia: Harness > Modelo
LangChain realizó un experimento controlado en Terminal Bench 2.0. Sin cambiar el modelo subyacente, mejoraron la precisión de su agente de codificación del 52.8% al 66.5% — una mejora del 26% — mejorando únicamente el harness.
Los cambios incluyeron:
- Mejores archivos de contexto (AGENTS.md)
- Restricciones de salida estructurada
- Bucles de autoverificación
- Optimización de herramientas
Esto confirma lo que los profesionales han estado diciendo: el techo no es el modelo. Es lo que pones a su alrededor.
Los 7 componentes de un Harness
1. Ingeniería de contexto (Context Engineering)
La ingeniería de contexto es la base. Aquí es donde le das al agente un mapa de tu base de código, tus convenciones y tus restricciones.
En la práctica:- Archivos
CLAUDE.md/AGENTS.mden la raíz de tu repo - Mapas de directorios y resúmenes de arquitectura
- Reglas de estilo de código y convenciones de nomenclatura
# CLAUDE.md example
## Architecture
- src/app/ — Next.js app router pages
- src/lib/ — shared utilities and API clients
- src/components/ — React components (co-located styles)
## Rules
- Use server components by default
- Never import from node_modules directly in components
- All API calls go through src/lib/api.ts
2. Restricciones arquitectónicas
En lugar de esperar que el agente elija la arquitectura correcta, oblígalo.
- Arquitecturas de capas rígidas validadas por linters
- Pruebas estructurales que fallan si se violan los patrones
- Restricciones de importación mediante reglas de ESLint o scripts personalizados
3. Herramientas y servidores MCP
Los agentes necesitan herramientas para ser efectivos. Los mejores harnesses exponen herramientas internas a través de:
- Wrappers de CLI — prefiere CLIs conocidas (git, docker, npm) sobre herramientas personalizadas
- Servidores MCP (Model Context Protocol) — permite que los agentes llamen a tus APIs internas, bases de datos y servicios
- Acceso al sistema de archivos — limitado a directorios específicos para evitar daños accidentales
git perfectamente porque tiene datos de entrenamiento masivos sobre él. Una CLI personalizada sin documentación lo confundirá.
4. Sub-agentes y Firewalls de contexto
Las sesiones de agentes de larga duración acumulan contexto que eventualmente degrada el rendimiento — esto se llama context rot.
La solución: sub-agentes con firewalls de contexto.
- Divide tareas complejas en subtareas discretas
- Cada subtarea se ejecuta en su propia sesión con un contexto fresco
- Pasa solo resultados estructurados entre agentes, no la conversación cruda
- Initializer Agent — planifica el trabajo, crea una lista de funcionalidades
- Coding Agent — ejecuta cada funcionalidad de forma aislada
5. Hooks y Back-Pressure
Bucles de retroalimentación automatizados que detectan errores antes de que se agraven:
- Pre-commit hooks — comprobación de tipos, linting, formateo
- Test runners — los agentes deben ejecutar pruebas después de cada cambio
- Verificación de build — falla rápido en compilaciones rotas
6. Bucles de autoverificación
Obliga a los agentes a verificar su propio trabajo antes de marcar las tareas como completadas:
- Ejecutar la suite de pruebas después de los cambios
- Comprobar que el build pase
- Verificar que la salida coincida con la especificación
- Tomar una captura de pantalla y comparar (para trabajo de UI)
7. Documentación de progreso
Para tareas de larga duración (más de 30 minutos):
- Mantén un archivo de progreso que rastree los pasos completados
- Realiza commits del trabajo frecuentemente para que las sesiones posteriores puedan continuar
- Usa listas de tareas estructuradas, no notas de formato libre
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Resultados en el mundo real
Equipo de OpenAI Codex
3 ingenieros produjeron una base de código de un millón de líneas con cero código escrito manualmente durante 5 meses. Promediaron 3.5 PRs mergeados por ingeniero al día — un rendimiento que es imposible sin un harness maduro.
Su harness incluía: convenciones de commit estrictas, pruebas automatizadas en cada PR y pipelines de CI/CD conscientes del agente.
Los "Minions" de Stripe
El sistema interno de Stripe produce más de 1,000 PRs mergeados por semana utilizando agentes de IA. Su harness incluye:
- Definiciones de tareas estrictamente limitadas
- Revisión de código obligatoria por humanos
- Pruebas de regresión automatizadas
- Automatización de rollback
Arquitectura de dos agentes de Anthropic
Anthropic publicó su enfoque para harnesses efectivos para agentes de larga duración:
- Listas de funcionalidades estructuradas como formato de entrega entre agentes
- Seguimiento de progreso basado en Git para que los agentes puedan reanudar después de una interrupción
- Criterios de salida explícitos para que los agentes sepan cuándo detenerse
Cómo empezar a construir tu Harness
Paso 1: Crea tu archivo de contexto
Añade un CLAUDE.md (o AGENTS.md) a la raíz de tu proyecto:
# Project: [Your Project]
## Stack
[Framework, language, database, hosting]
## Architecture
[Directory structure with one-line descriptions]
## Rules
[5-10 hard rules the agent must follow]
## Common Tasks
[How to run tests, build, deploy]
Paso 2: Añade restricciones estructurales
# Example: ESLint rule preventing direct DB imports in components
# .eslintrc — no-restricted-imports rule
Configura pre-commit hooks que fuercen tus reglas automáticamente.
Paso 3: Construye bucles de verificación
Asegúrate de que tu agente pueda:
- Ejecutar pruebas (
npm test,pytest, etc.) - Comprobar tipos (
tsc --noEmit,mypy) - Linting (
eslint .,ruff check)
Conecta estos al flujo de trabajo de tu agente para que se ejecuten después de cada cambio.
Paso 4: Limita el alcance de las sesiones del agente
No le des a un agente todo tu backlog. En su lugar:
- Una funcionalidad por sesión
- Una corrección de errores por sesión
- Criterios de aceptación claros para cada tarea
Paso 5: Itera sobre el Harness
Cada vez que un agente cometa un error:
- Identifica la causa raíz
- Añade una regla, restricción o hook que lo prevenga
- Prueba la solución
Harness Engineering vs. Prompt Engineering
| Prompt Engineering | Harness Engineering | |
|---|---|---|
| Enfoque | Qué le dices al modelo | Qué construyes alrededor del modelo |
| Durabilidad | Frágil, depende del modelo | Robusto, agnóstico al modelo |
| Efecto compuesto | No mejora con el tiempo | Mejora con cada iteración |
| Alcance | Interacción única | Flujo de trabajo completo |
| Tipo de habilidad | Escritura | Ingeniería de sistemas |
El prompt engineering sigue siendo útil, pero es solo una pequeña parte del panorama. El harness engineering es el multiplicador.
El rol emergente: El Ingeniero de Harness
La ingeniería se está dividiendo en dos mitades:
- Construcción del entorno — creando estructuras, herramientas, restricciones y bucles de retroalimentación
- Gestión del trabajo — planificando, revisando y orquestando sesiones de agentes en paralelo
No confundir con: Harness.io
Si buscaste "Harness Engineering" buscando la plataforma de DevOps — Harness.io es algo totalmente distinto. Es una plataforma de CI/CD impulsada por IA valorada en $5.5B (a diciembre de 2025) que ofrece integración continua, entrega, feature flags, gestión de costes en la nube y pruebas de seguridad.
Aunque Harness.io y harness engineering comparten nombre, resuelven problemas diferentes. Aunque existe un solapamiento interesante: el DevOps impulsado por IA de Harness.io es, posiblemente, una aplicación de los principios de harness engineering al pipeline de despliegue.
Conclusión
El modelo es el motor. El harness es el coche. Nadie gana una carrera solo con un motor.
Si estás usando agentes de codificación de IA en 2026 y no estás invirtiendo en tu harness, estás dejando la mayor parte del valor sobre la mesa. Empieza con un archivo de contexto, añade restricciones, construye bucles de verificación e itera cada vez que algo se rompa.
Los equipos que entregan más rápido no están usando mejores modelos. Están usando mejores harnesses.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.