26 de marzo de 2026·Y Build Team

Harness Engineering: Construyendo sistemas alrededor de agentes de IA (2026)

Harness engineering es la forma en que los mejores equipos logran que los agentes de codificación de IA sean confiables. Aprende la fórmula Agente = Modelo + Harness, componentes principales y resultados reales de OpenAI, Stripe y Anthropic.

Harness EngineeringAgentes de IAAgentes de codificaciónClaude CodeCodexDevOpsIngeniería de Software2026

TL;DR

Concepto	Resumen
Fórmula	Agente = Modelo + Harness
¿Qué es un harness?	Todo lo que rodea al modelo de IA: contexto, restricciones, herramientas, bucles de verificación
Dato clave	LangChain mejoró la precisión del agente del 52.8% → 66.5% cambiando solo el harness, no el modelo
Quiénes lo usan	OpenAI (Codex), Stripe (más de 1,000 PRs/semana), Anthropic, Vercel
Componentes núcleo	Ingeniería de contexto, restricciones arquitectónicas, herramientas/MCP, sub-agentes, hooks, autoverificación

¿Qué es el Harness Engineering?

Harness engineering es la disciplina de construir sistemas, herramientas, restricciones y bucles de retroalimentación alrededor de los agentes de codificación de IA para que sean confiables y productivos.

El término fue acuñado por Mitchell Hashimoto (co-fundador de HashiCorp) y ganó atención generalizada cuando OpenAI publicó su artículo sobre Codex sobre el tema a principios de 2026.

La idea central es simple:

Agente = Modelo + Harness

El modelo proporciona la inteligencia. El harness hace que esa inteligencia sea útil. Un mejor harness a menudo importa más que un mejor modelo.

Por qué es importante ahora

En 2025, todos los equipos adoptaron agentes de codificación de IA. En 2026, los equipos ganadores son aquellos que diseñaron los entornos de sus agentes — no solo los que eligieron el mejor modelo.

El principio rector de Mitchell Hashimoto:

"Cada vez que encuentres que un agente comete un error, tómate el tiempo para diseñar una solución de modo que el agente nunca vuelva a cometer ese error".

Esto no es prompt engineering. Es ingeniería de sistemas para la IA.

La evidencia: Harness > Modelo

LangChain realizó un experimento controlado en Terminal Bench 2.0. Sin cambiar el modelo subyacente, mejoraron la precisión de su agente de codificación del 52.8% al 66.5% — una mejora del 26% — mejorando únicamente el harness.

Los cambios incluyeron:

Mejores archivos de contexto (AGENTS.md)

Restricciones de salida estructurada

Bucles de autoverificación

Optimización de herramientas

Esto confirma lo que los profesionales han estado diciendo: el techo no es el modelo. Es lo que pones a su alrededor.

Los 7 componentes de un Harness

1. Ingeniería de contexto (Context Engineering)

La ingeniería de contexto es la base. Aquí es donde le das al agente un mapa de tu base de código, tus convenciones y tus restricciones.

En la práctica:

Archivos CLAUDE.md / AGENTS.md en la raíz de tu repo
Mapas de directorios y resúmenes de arquitectura
Reglas de estilo de código y convenciones de nomenclatura

Regla clave: Mantén los archivos de contexto por debajo de las 60 líneas. Los agentes pierden el foco con documentos largos — dales un mapa, no un manual de 1,000 páginas.

markdown

# CLAUDE.md example
## Architecture
- src/app/ — Next.js app router pages
- src/lib/ — shared utilities and API clients
- src/components/ — React components (co-located styles)

## Rules
- Use server components by default
- Never import from node_modules directly in components
- All API calls go through src/lib/api.ts

2. Restricciones arquitectónicas

En lugar de esperar que el agente elija la arquitectura correcta, oblígalo.

Arquitecturas de capas rígidas validadas por linters
Pruebas estructurales que fallan si se violan los patrones
Restricciones de importación mediante reglas de ESLint o scripts personalizados

La idea: restringir el espacio de soluciones en lugar de expandirlo. Menos opciones válidas significan menos respuestas incorrectas.

3. Herramientas y servidores MCP

Los agentes necesitan herramientas para ser efectivos. Los mejores harnesses exponen herramientas internas a través de:

Wrappers de CLI — prefiere CLIs conocidas (git, docker, npm) sobre herramientas personalizadas
Servidores MCP (Model Context Protocol) — permite que los agentes llamen a tus APIs internas, bases de datos y servicios
Acceso al sistema de archivos — limitado a directorios específicos para evitar daños accidentales

Consejo profesional: Prefiere herramientas estándar bien documentadas. Un agente puede usar git perfectamente porque tiene datos de entrenamiento masivos sobre él. Una CLI personalizada sin documentación lo confundirá.

4. Sub-agentes y Firewalls de contexto

Las sesiones de agentes de larga duración acumulan contexto que eventualmente degrada el rendimiento — esto se llama context rot.

La solución: sub-agentes con firewalls de contexto.

Divide tareas complejas en subtareas discretas
Cada subtarea se ejecuta en su propia sesión con un contexto fresco
Pasa solo resultados estructurados entre agentes, no la conversación cruda

La arquitectura publicada por Anthropic utiliza dos agentes:

Initializer Agent — planifica el trabajo, crea una lista de funcionalidades
Coding Agent — ejecuta cada funcionalidad de forma aislada

5. Hooks y Back-Pressure

Bucles de retroalimentación automatizados que detectan errores antes de que se agraven:

Pre-commit hooks — comprobación de tipos, linting, formateo
Test runners — los agentes deben ejecutar pruebas después de cada cambio
Verificación de build — falla rápido en compilaciones rotas

Regla de diseño crítica: Muestra los fallos con claridad, pero nunca vuelques una salida de éxito verbosa en el contexto del agente. El éxito debe ser silencioso. Los fallos deben ser ruidosos.

6. Bucles de autoverificación

Obliga a los agentes a verificar su propio trabajo antes de marcar las tareas como completadas:

Ejecutar la suite de pruebas después de los cambios
Comprobar que el build pase
Verificar que la salida coincida con la especificación
Tomar una captura de pantalla y comparar (para trabajo de UI)

Esta es la diferencia entre un agente que "cree que ha terminado" y uno que realmente lo ha hecho.

7. Documentación de progreso

Para tareas de larga duración (más de 30 minutos):

Mantén un archivo de progreso que rastree los pasos completados
Realiza commits del trabajo frecuentemente para que las sesiones posteriores puedan continuar
Usa listas de tareas estructuradas, no notas de formato libre

De esta manera, si una sesión de agente falla o se queda sin contexto, la siguiente sesión continúa donde se quedó la anterior.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Resultados en el mundo real

Equipo de OpenAI Codex

3 ingenieros produjeron una base de código de un millón de líneas con cero código escrito manualmente durante 5 meses. Promediaron 3.5 PRs mergeados por ingeniero al día — un rendimiento que es imposible sin un harness maduro.

Su harness incluía: convenciones de commit estrictas, pruebas automatizadas en cada PR y pipelines de CI/CD conscientes del agente.

Los "Minions" de Stripe

El sistema interno de Stripe produce más de 1,000 PRs mergeados por semana utilizando agentes de IA. Su harness incluye:

Definiciones de tareas estrictamente limitadas
Revisión de código obligatoria por humanos
Pruebas de regresión automatizadas
Automatización de rollback

Arquitectura de dos agentes de Anthropic

Anthropic publicó su enfoque para harnesses efectivos para agentes de larga duración:

Listas de funcionalidades estructuradas como formato de entrega entre agentes
Seguimiento de progreso basado en Git para que los agentes puedan reanudar después de una interrupción
Criterios de salida explícitos para que los agentes sepan cuándo detenerse

Cómo empezar a construir tu Harness

Paso 1: Crea tu archivo de contexto

Añade un CLAUDE.md (o AGENTS.md) a la raíz de tu proyecto:

markdown

# Project: [Your Project]

## Stack
[Framework, language, database, hosting]

## Architecture
[Directory structure with one-line descriptions]

## Rules
[5-10 hard rules the agent must follow]

## Common Tasks
[How to run tests, build, deploy]

Paso 2: Añade restricciones estructurales

bash

# Example: ESLint rule preventing direct DB imports in components
# .eslintrc — no-restricted-imports rule

Configura pre-commit hooks que fuercen tus reglas automáticamente.

Paso 3: Construye bucles de verificación

Asegúrate de que tu agente pueda:

Ejecutar pruebas (npm test, pytest, etc.)

Comprobar tipos (tsc --noEmit, mypy)

Linting (eslint ., ruff check)

Conecta estos al flujo de trabajo de tu agente para que se ejecuten después de cada cambio.

Paso 4: Limita el alcance de las sesiones del agente

No le des a un agente todo tu backlog. En su lugar:

Una funcionalidad por sesión
Una corrección de errores por sesión
Criterios de aceptación claros para cada tarea

Paso 5: Itera sobre el Harness

Cada vez que un agente cometa un error:

Identifica la causa raíz
Añade una regla, restricción o hook que lo prevenga
Prueba la solución

Con el tiempo, tu harness mejora y tus agentes se vuelven más confiables — sin necesidad de actualizar el modelo.

Harness Engineering vs. Prompt Engineering

Prompt Engineering	Harness Engineering
Enfoque	Qué le dices al modelo	Qué construyes alrededor del modelo
Durabilidad	Frágil, depende del modelo	Robusto, agnóstico al modelo
Efecto compuesto	No mejora con el tiempo	Mejora con cada iteración
Alcance	Interacción única	Flujo de trabajo completo
Tipo de habilidad	Escritura	Ingeniería de sistemas

El prompt engineering sigue siendo útil, pero es solo una pequeña parte del panorama. El harness engineering es el multiplicador.

El rol emergente: El Ingeniero de Harness

La ingeniería se está dividiendo en dos mitades:

Construcción del entorno — creando estructuras, herramientas, restricciones y bucles de retroalimentación
Gestión del trabajo — planificando, revisando y orquestando sesiones de agentes en paralelo

Los ingenieros que prosperarán en 2026 no son los que escriben más código. Son los que construyen los mejores entornos para que los agentes escriban código.

No confundir con: Harness.io

Si buscaste "Harness Engineering" buscando la plataforma de DevOps — Harness.io es algo totalmente distinto. Es una plataforma de CI/CD impulsada por IA valorada en $5.5B (a diciembre de 2025) que ofrece integración continua, entrega, feature flags, gestión de costes en la nube y pruebas de seguridad.

Aunque Harness.io y harness engineering comparten nombre, resuelven problemas diferentes. Aunque existe un solapamiento interesante: el DevOps impulsado por IA de Harness.io es, posiblemente, una aplicación de los principios de harness engineering al pipeline de despliegue.

Conclusión

El modelo es el motor. El harness es el coche. Nadie gana una carrera solo con un motor.

Si estás usando agentes de codificación de IA en 2026 y no estás invirtiendo en tu harness, estás dejando la mayor parte del valor sobre la mesa. Empieza con un archivo de contexto, añade restricciones, construye bucles de verificación e itera cada vez que algo se rompa.

Los equipos que entregan más rápido no están usando mejores modelos. Están usando mejores harnesses.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Volver al blog

26 de marzo de 2026·Y Build Team

Harness Engineering: Construyendo sistemas alrededor de agentes de IA (2026)

Harness EngineeringAgentes de IAAgentes de codificaciónClaude CodeCodexDevOpsIngeniería de Software2026

TL;DR

Concepto	Resumen
Fórmula	Agente = Modelo + Harness
¿Qué es un harness?	Todo lo que rodea al modelo de IA: contexto, restricciones, herramientas, bucles de verificación
Dato clave	LangChain mejoró la precisión del agente del 52.8% → 66.5% cambiando solo el harness, no el modelo
Quiénes lo usan	OpenAI (Codex), Stripe (más de 1,000 PRs/semana), Anthropic, Vercel
Componentes núcleo	Ingeniería de contexto, restricciones arquitectónicas, herramientas/MCP, sub-agentes, hooks, autoverificación

¿Qué es el Harness Engineering?

El término fue acuñado por Mitchell Hashimoto (co-fundador de HashiCorp) y ganó atención generalizada cuando OpenAI publicó su artículo sobre Codex sobre el tema a principios de 2026.

La idea central es simple:

Agente = Modelo + Harness

El modelo proporciona la inteligencia. El harness hace que esa inteligencia sea útil. Un mejor harness a menudo importa más que un mejor modelo.

Por qué es importante ahora

El principio rector de Mitchell Hashimoto:

"Cada vez que encuentres que un agente comete un error, tómate el tiempo para diseñar una solución de modo que el agente nunca vuelva a cometer ese error".

Esto no es prompt engineering. Es ingeniería de sistemas para la IA.

La evidencia: Harness > Modelo

Los cambios incluyeron:

Mejores archivos de contexto (AGENTS.md)

Restricciones de salida estructurada

Bucles de autoverificación

Optimización de herramientas

Esto confirma lo que los profesionales han estado diciendo: el techo no es el modelo. Es lo que pones a su alrededor.

Los 7 componentes de un Harness

1. Ingeniería de contexto (Context Engineering)

La ingeniería de contexto es la base. Aquí es donde le das al agente un mapa de tu base de código, tus convenciones y tus restricciones.

En la práctica:

Archivos CLAUDE.md / AGENTS.md en la raíz de tu repo
Mapas de directorios y resúmenes de arquitectura
Reglas de estilo de código y convenciones de nomenclatura

Regla clave: Mantén los archivos de contexto por debajo de las 60 líneas. Los agentes pierden el foco con documentos largos — dales un mapa, no un manual de 1,000 páginas.

markdown

# CLAUDE.md example
## Architecture
- src/app/ — Next.js app router pages
- src/lib/ — shared utilities and API clients
- src/components/ — React components (co-located styles)

## Rules
- Use server components by default
- Never import from node_modules directly in components
- All API calls go through src/lib/api.ts

2. Restricciones arquitectónicas

En lugar de esperar que el agente elija la arquitectura correcta, oblígalo.

Arquitecturas de capas rígidas validadas por linters
Pruebas estructurales que fallan si se violan los patrones
Restricciones de importación mediante reglas de ESLint o scripts personalizados

La idea: restringir el espacio de soluciones en lugar de expandirlo. Menos opciones válidas significan menos respuestas incorrectas.

3. Herramientas y servidores MCP

Los agentes necesitan herramientas para ser efectivos. Los mejores harnesses exponen herramientas internas a través de:

Wrappers de CLI — prefiere CLIs conocidas (git, docker, npm) sobre herramientas personalizadas
Servidores MCP (Model Context Protocol) — permite que los agentes llamen a tus APIs internas, bases de datos y servicios
Acceso al sistema de archivos — limitado a directorios específicos para evitar daños accidentales

4. Sub-agentes y Firewalls de contexto

Las sesiones de agentes de larga duración acumulan contexto que eventualmente degrada el rendimiento — esto se llama context rot.

La solución: sub-agentes con firewalls de contexto.

Divide tareas complejas en subtareas discretas
Cada subtarea se ejecuta en su propia sesión con un contexto fresco
Pasa solo resultados estructurados entre agentes, no la conversación cruda

La arquitectura publicada por Anthropic utiliza dos agentes:

Initializer Agent — planifica el trabajo, crea una lista de funcionalidades
Coding Agent — ejecuta cada funcionalidad de forma aislada

5. Hooks y Back-Pressure

Bucles de retroalimentación automatizados que detectan errores antes de que se agraven:

Pre-commit hooks — comprobación de tipos, linting, formateo
Test runners — los agentes deben ejecutar pruebas después de cada cambio
Verificación de build — falla rápido en compilaciones rotas

6. Bucles de autoverificación

Obliga a los agentes a verificar su propio trabajo antes de marcar las tareas como completadas:

Ejecutar la suite de pruebas después de los cambios
Comprobar que el build pase
Verificar que la salida coincida con la especificación
Tomar una captura de pantalla y comparar (para trabajo de UI)

Esta es la diferencia entre un agente que "cree que ha terminado" y uno que realmente lo ha hecho.

7. Documentación de progreso

Para tareas de larga duración (más de 30 minutos):

Mantén un archivo de progreso que rastree los pasos completados
Realiza commits del trabajo frecuentemente para que las sesiones posteriores puedan continuar
Usa listas de tareas estructuradas, no notas de formato libre

De esta manera, si una sesión de agente falla o se queda sin contexto, la siguiente sesión continúa donde se quedó la anterior.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Resultados en el mundo real

Equipo de OpenAI Codex

Su harness incluía: convenciones de commit estrictas, pruebas automatizadas en cada PR y pipelines de CI/CD conscientes del agente.

Los "Minions" de Stripe

El sistema interno de Stripe produce más de 1,000 PRs mergeados por semana utilizando agentes de IA. Su harness incluye:

Definiciones de tareas estrictamente limitadas
Revisión de código obligatoria por humanos
Pruebas de regresión automatizadas
Automatización de rollback

Arquitectura de dos agentes de Anthropic

Anthropic publicó su enfoque para harnesses efectivos para agentes de larga duración:

Listas de funcionalidades estructuradas como formato de entrega entre agentes
Seguimiento de progreso basado en Git para que los agentes puedan reanudar después de una interrupción
Criterios de salida explícitos para que los agentes sepan cuándo detenerse

Cómo empezar a construir tu Harness

Paso 1: Crea tu archivo de contexto

Añade un CLAUDE.md (o AGENTS.md) a la raíz de tu proyecto:

markdown

# Project: [Your Project]

## Stack
[Framework, language, database, hosting]

## Architecture
[Directory structure with one-line descriptions]

## Rules
[5-10 hard rules the agent must follow]

## Common Tasks
[How to run tests, build, deploy]

Paso 2: Añade restricciones estructurales

bash

# Example: ESLint rule preventing direct DB imports in components
# .eslintrc — no-restricted-imports rule

Configura pre-commit hooks que fuercen tus reglas automáticamente.

Paso 3: Construye bucles de verificación

Asegúrate de que tu agente pueda:

Ejecutar pruebas (npm test, pytest, etc.)

Comprobar tipos (tsc --noEmit, mypy)

Linting (eslint ., ruff check)

Conecta estos al flujo de trabajo de tu agente para que se ejecuten después de cada cambio.

Paso 4: Limita el alcance de las sesiones del agente

No le des a un agente todo tu backlog. En su lugar:

Una funcionalidad por sesión
Una corrección de errores por sesión
Criterios de aceptación claros para cada tarea

Paso 5: Itera sobre el Harness

Cada vez que un agente cometa un error:

Identifica la causa raíz
Añade una regla, restricción o hook que lo prevenga
Prueba la solución

Con el tiempo, tu harness mejora y tus agentes se vuelven más confiables — sin necesidad de actualizar el modelo.

Harness Engineering vs. Prompt Engineering

Prompt Engineering	Harness Engineering
Enfoque	Qué le dices al modelo	Qué construyes alrededor del modelo
Durabilidad	Frágil, depende del modelo	Robusto, agnóstico al modelo
Efecto compuesto	No mejora con el tiempo	Mejora con cada iteración
Alcance	Interacción única	Flujo de trabajo completo
Tipo de habilidad	Escritura	Ingeniería de sistemas

El prompt engineering sigue siendo útil, pero es solo una pequeña parte del panorama. El harness engineering es el multiplicador.

El rol emergente: El Ingeniero de Harness

La ingeniería se está dividiendo en dos mitades:

Construcción del entorno — creando estructuras, herramientas, restricciones y bucles de retroalimentación
Gestión del trabajo — planificando, revisando y orquestando sesiones de agentes en paralelo

Los ingenieros que prosperarán en 2026 no son los que escriben más código. Son los que construyen los mejores entornos para que los agentes escriban código.

No confundir con: Harness.io

Conclusión

El modelo es el motor. El harness es el coche. Nadie gana una carrera solo con un motor.

Los equipos que entregan más rápido no están usando mejores modelos. Están usando mejores harnesses.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.