Engenharia de Harness: Construindo Sistemas em Torno de Agentes de IA (2026)
Engenharia de harness é como as principais equipes tornam os agentes de codificação de IA confiáveis. Aprenda a fórmula Agente = Modelo + Harness, componentes principais e resultados reais da OpenAI, Stripe e Anthropic.
TL;DR
| Conceito | Resumo |
|---|---|
| Fórmula | Agente = Modelo + Harness |
| O que é um harness? | Tudo ao redor do modelo de IA: contexto, restrições, ferramentas, loops de verificação |
| Insight chave | LangChain melhorou a precisão do agente de 52,8% → 66,5% mudando apenas o harness, não o modelo |
| Quem está usando | OpenAI (Codex), Stripe (1.000+ PRs/semana), Anthropic, Vercel |
| Componentes principais | Engenharia de contexto, restrições arquiteturais, ferramentas/MCP, subagentes, hooks, autoverificação |
O Que É Engenharia de Harness?
Engenharia de harness é a disciplina de construir sistemas, ferramentas, restrições e loops de feedback em torno de agentes de codificação de IA para torná-los confiáveis e produtivos.
O termo foi cunhado por Mitchell Hashimoto (co-fundador da HashiCorp) e ganhou atenção do grande público quando a OpenAI publicou seu artigo sobre o Codex sobre o tema no início de 2026.
A ideia central é simples:
Agente = Modelo + Harness
O modelo fornece inteligência. O harness torna essa inteligência útil. Um harness melhor geralmente importa mais do que um modelo melhor.
Por Que Isso Importa Agora
Em 2025, todas as equipes adotaram agentes de codificação de IA. Em 2026, as equipes vencedoras são aquelas que projetaram os ambientes de seus agentes — não apenas escolheram o melhor modelo.
O princípio orientador de Mitchell Hashimoto:
"Sempre que você descobrir que um agente cometeu um erro, reserve um tempo para projetar uma solução de modo que o agente nunca mais cometa esse erro."
Isso não é prompt engineering. É engenharia de sistemas para IA.
A Evidência: Harness > Modelo
A LangChain realizou um experimento controlado no Terminal Bench 2.0. Sem alterar o modelo subjacente, eles melhoraram a precisão de seu agente de codificação de 52,8% para 66,5% — uma melhoria de 26% — apenas aprimorando o harness.
As mudanças incluíram:
- Melhores arquivos de contexto (AGENTS.md)
- Restrições de saída estruturada
- Loops de autoverificação
- Otimização de ferramentas
Isso confirma o que os profissionais vêm dizendo: o teto não é o modelo. É o que você coloca ao redor dele.
Os 7 Componentes de um Harness
1. Engenharia de Contexto
A engenharia de contexto é a base. É aqui que você fornece ao agente um mapa da sua base de código, suas convenções e suas restrições.
Na prática:- Arquivos
CLAUDE.md/AGENTS.mdna raiz do seu repositório - Mapas de diretórios e visões gerais da arquitetura
- Regras de estilo de codificação e convenções de nomenclatura
# Exemplo de CLAUDE.md
## Arquitetura
- src/app/ — páginas do app router do Next.js
- src/lib/ — utilitários compartilhados e clientes de API
- src/components/ — componentes React (estilos co-localizados)
## Regras
- Use server components por padrão
- Nunca importe de node_modules diretamente em componentes
- Todas as chamadas de API passam por src/lib/api.ts
2. Restrições Arquiteturais
Em vez de esperar que o agente escolha a arquitetura correta, imponha-a.
- Arquiteturas em camadas rígidas validadas por linters
- Testes estruturais que falham se os padrões forem violados
- Restrições de importação via regras de ESLint ou scripts personalizados
3. Ferramentas & Servidores MCP
Os agentes precisam de ferramentas para serem eficazes. Os melhores harnesses expõem ferramentas internas via:
- Wrappers de CLI — prefira CLIs conhecidas (git, docker, npm) em vez de ferramentas personalizadas
- Servidores MCP (Model Context Protocol) — permita que os agentes chamem suas APIs internas, bancos de dados e serviços
- Acesso ao sistema de arquivos — com escopo definido para diretórios específicos para evitar danos acidentais
git perfeitamente porque possui dados de treinamento massivos sobre ele. Uma CLI personalizada sem documentação irá confundi-lo.
4. Subagentes & Firewalls de Contexto
Sessões de agentes de longa duração acumulam contexto que eventualmente degrada o desempenho — isso é chamado de deterioração de contexto (context rot).
A solução: subagentes com firewalls de contexto.
- Divida tarefas complexas em subtarefas discretas
- Cada subtarefa é executada em sua própria sessão com um contexto novo
- Passe apenas resultados estruturados entre agentes, não a conversa bruta
- Agente Inicializador — planeja o trabalho, cria uma lista de funcionalidades
- Agente de Codificação — executa cada funcionalidade isoladamente
5. Hooks & Back-Pressure
Loops de feedback automatizados que capturam erros antes que eles se acumulem:
- Pre-commit hooks — verificação de tipos, linting, formatação
- Test runners — os agentes devem executar testes após cada alteração
- Verificação de build — falhe rapidamente em builds quebrados
6. Loops de Autoverificação
Force os agentes a verificar seu próprio trabalho antes de marcar as tarefas como concluídas:
- Execute a suíte de testes após as alterações
- Verifique se o build passa
- Verifique se a saída corresponde à especificação
- Tire um screenshot e compare (para trabalho de UI)
7. Documentação de Progresso
Para tarefas de longa duração (mais de 30 minutos):
- Mantenha um arquivo de progresso que rastreia as etapas concluídas
- Faça commits do trabalho frequentemente para que as sessões subsequentes possam continuar
- Use listas de tarefas estruturadas, não notas de forma livre
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Resultados no Mundo Real
Equipe OpenAI Codex
3 engenheiros produziram uma base de código de um milhão de linhas com zero código escrito manualmente ao longo de 5 meses. Eles tiveram uma média de 3,5 PRs mesclados por engenheiro por dia — uma produtividade impossível sem um harness maduro.
O harness deles incluía: convenções de commit estritas, testes automatizados em cada PR e pipelines de CI/CD cientes de agentes.
"Minions" da Stripe
O sistema interno da Stripe produz mais de 1.000 PRs mesclados por semana usando agentes de IA. O harness deles inclui:
- Definições de tarefas estritamente delimitadas
- Revisão de código obrigatória por humanos
- Testes de regressão automatizados
- Automação de rollback
Arquitetura de Dois Agentes da Anthropic
A Anthropic publicou sua abordagem para harnesses eficazes para agentes de longa duração:
- Listas de funcionalidades estruturadas como formato de transferência entre agentes
- Rastreamento de progresso baseado em Git para que os agentes possam retomar após interrupções
- Critérios de saída explícitos para que os agentes saibam quando parar
Como Começar a Construir Seu Harness
Passo 1: Crie Seu Arquivo de Contexto
Adicione um CLAUDE.md (ou AGENTS.md) à raiz do seu projeto:
# Projeto: [Seu Projeto]
## Stack
[Framework, linguagem, banco de dados, hospedagem]
## Arquitetura
[Estrutura de diretórios com descrições de uma linha]
## Regras
[5-10 regras rígidas que o agente deve seguir]
## Tarefas Comuns
[Como executar testes, build, deploy]
Passo 2: Adicione Restrições Estruturais
# Exemplo: Regra de ESLint impedindo importações diretas de DB em componentes
# .eslintrc — regra no-restricted-imports
Configure pre-commit hooks que imponham suas regras automaticamente.
Passo 3: Construa Loops de Verificação de Build
Certifique-se de que seu agente possa:
- Executar testes (
npm test,pytest, etc.) - Verificar tipos (
tsc --noEmit,mypy) - Fazer lint (
eslint .,ruff check)
Conecte-os ao fluxo de trabalho do seu agente para que sejam executados após cada alteração.
Passo 4: Delimite as Sessões do Agente
Não dê ao agente todo o seu backlog. Em vez disso:
- Uma funcionalidade por sessão
- Uma correção de bug por sessão
- Critérios de aceitação claros para cada tarefa
Passo 5: Itere no Harness
Toda vez que um agente cometer um erro:
- Identifique a causa raiz
- Adicione uma regra, restrição ou hook que o previna
- Teste a correção
Engenharia de Harness vs. Prompt Engineering
| Prompt Engineering | Engenharia de Harness | |
|---|---|---|
| Foco | O que você diz ao modelo | O que você constrói em torno do modelo |
| Durabilidade | Frágil, dependente do modelo | Robusta, agnóstica ao modelo |
| Efeito Cumulativo | Não melhora com o tempo | Melhora a cada iteração |
| Escopo | Interação única | Fluxo de trabalho completo |
| Tipo de Habilidade | Escrita | Engenharia de sistemas |
O prompt engineering ainda é útil, mas é uma pequena parte do quadro geral. A engenharia de harness é o multiplicador.
O Papel Emergente: O Engenheiro de Harness
A engenharia está se dividindo em duas metades:
- Construção de Ambiente — criando estrutura, ferramentas, restrições e loops de feedback
- Gerenciamento de Trabalho — planejando, revisando e orquestrando sessões paralelas de agentes
Não Confundir Com: Harness.io
Se você pesquisou "Harness Engineering" procurando pela plataforma de DevOps — o Harness.io é algo totalmente diferente. É uma plataforma de CI/CD baseada em IA avaliada em US$ 5,5 bilhões (em dezembro de 2025) que oferece integração contínua, entrega, feature flags, gerenciamento de custos de nuvem e testes de segurança.
Embora o Harness.io e a engenharia de harness compartilhem o nome, eles resolvem problemas diferentes. No entanto, há uma sobreposição interessante: o DevOps baseado em IA do Harness.io é indiscutivelmente uma aplicação dos princípios de engenharia de harness ao pipeline de implantação.
Conclusão
O modelo é o motor. O harness é o carro. Ninguém ganha uma corrida apenas com um motor.
Se você estiver usando agentes de codificação de IA em 2026 e não estiver investindo em seu harness, está deixando a maior parte do valor na mesa. Comece com um arquivo de contexto, adicione restrições, construa loops de verificação e itere toda vez que algo quebrar.
As equipes que entregam mais rápido não estão usando modelos melhores. Elas estão usando harnesses melhores.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.