26 de março de 2026·Y Build Team

Engenharia de Harness: Construindo Sistemas em Torno de Agentes de IA (2026)

Engenharia de harness é como as principais equipes tornam os agentes de codificação de IA confiáveis. Aprenda a fórmula Agente = Modelo + Harness, componentes principais e resultados reais da OpenAI, Stripe e Anthropic.

Engenharia de HarnessAgentes de IAAgentes de CodificaçãoClaude CodeCodexDevOpsEngenharia de Software2026

TL;DR

Conceito	Resumo
Fórmula	Agente = Modelo + Harness
O que é um harness?	Tudo ao redor do modelo de IA: contexto, restrições, ferramentas, loops de verificação
Insight chave	LangChain melhorou a precisão do agente de 52,8% → 66,5% mudando apenas o harness, não o modelo
Quem está usando	OpenAI (Codex), Stripe (1.000+ PRs/semana), Anthropic, Vercel
Componentes principais	Engenharia de contexto, restrições arquiteturais, ferramentas/MCP, subagentes, hooks, autoverificação

O Que É Engenharia de Harness?

Engenharia de harness é a disciplina de construir sistemas, ferramentas, restrições e loops de feedback em torno de agentes de codificação de IA para torná-los confiáveis e produtivos.

O termo foi cunhado por Mitchell Hashimoto (co-fundador da HashiCorp) e ganhou atenção do grande público quando a OpenAI publicou seu artigo sobre o Codex sobre o tema no início de 2026.

A ideia central é simples:

Agente = Modelo + Harness

O modelo fornece inteligência. O harness torna essa inteligência útil. Um harness melhor geralmente importa mais do que um modelo melhor.

Por Que Isso Importa Agora

Em 2025, todas as equipes adotaram agentes de codificação de IA. Em 2026, as equipes vencedoras são aquelas que projetaram os ambientes de seus agentes — não apenas escolheram o melhor modelo.

O princípio orientador de Mitchell Hashimoto:

"Sempre que você descobrir que um agente cometeu um erro, reserve um tempo para projetar uma solução de modo que o agente nunca mais cometa esse erro."

Isso não é prompt engineering. É engenharia de sistemas para IA.

A Evidência: Harness > Modelo

A LangChain realizou um experimento controlado no Terminal Bench 2.0. Sem alterar o modelo subjacente, eles melhoraram a precisão de seu agente de codificação de 52,8% para 66,5% — uma melhoria de 26% — apenas aprimorando o harness.

As mudanças incluíram:

Melhores arquivos de contexto (AGENTS.md)

Restrições de saída estruturada

Loops de autoverificação

Otimização de ferramentas

Isso confirma o que os profissionais vêm dizendo: o teto não é o modelo. É o que você coloca ao redor dele.

Os 7 Componentes de um Harness

1. Engenharia de Contexto

A engenharia de contexto é a base. É aqui que você fornece ao agente um mapa da sua base de código, suas convenções e suas restrições.

Na prática:

Arquivos CLAUDE.md / AGENTS.md na raiz do seu repositório
Mapas de diretórios e visões gerais da arquitetura
Regras de estilo de codificação e convenções de nomenclatura

Regra chave: Mantenha os arquivos de contexto abaixo de 60 linhas. Os agentes perdem o foco com documentos longos — dê a eles um mapa, não um manual de 1.000 páginas.

markdown

# Exemplo de CLAUDE.md
## Arquitetura
- src/app/ — páginas do app router do Next.js
- src/lib/ — utilitários compartilhados e clientes de API
- src/components/ — componentes React (estilos co-localizados)

## Regras
- Use server components por padrão
- Nunca importe de node_modules diretamente em componentes
- Todas as chamadas de API passam por src/lib/api.ts

2. Restrições Arquiteturais

Em vez de esperar que o agente escolha a arquitetura correta, imponha-a.

Arquiteturas em camadas rígidas validadas por linters
Testes estruturais que falham se os padrões forem violados
Restrições de importação via regras de ESLint ou scripts personalizados

A ideia: restringir o espaço de solução em vez de expandi-lo. Menos opções válidas significam menos respostas erradas.

3. Ferramentas & Servidores MCP

Os agentes precisam de ferramentas para serem eficazes. Os melhores harnesses expõem ferramentas internas via:

Wrappers de CLI — prefira CLIs conhecidas (git, docker, npm) em vez de ferramentas personalizadas
Servidores MCP (Model Context Protocol) — permita que os agentes chamem suas APIs internas, bancos de dados e serviços
Acesso ao sistema de arquivos — com escopo definido para diretórios específicos para evitar danos acidentais

Dica profissional: Prefira ferramentas padrão bem documentadas. Um agente pode usar o git perfeitamente porque possui dados de treinamento massivos sobre ele. Uma CLI personalizada sem documentação irá confundi-lo.

4. Subagentes & Firewalls de Contexto

Sessões de agentes de longa duração acumulam contexto que eventualmente degrada o desempenho — isso é chamado de deterioração de contexto (context rot).

A solução: subagentes com firewalls de contexto.

Divida tarefas complexas em subtarefas discretas
Cada subtarefa é executada em sua própria sessão com um contexto novo
Passe apenas resultados estruturados entre agentes, não a conversa bruta

A arquitetura publicada pela Anthropic usa dois agentes:

Agente Inicializador — planeja o trabalho, cria uma lista de funcionalidades
Agente de Codificação — executa cada funcionalidade isoladamente

5. Hooks & Back-Pressure

Loops de feedback automatizados que capturam erros antes que eles se acumulem:

Pre-commit hooks — verificação de tipos, linting, formatação
Test runners — os agentes devem executar testes após cada alteração
Verificação de build — falhe rapidamente em builds quebrados

Regra de design crítica: Exiba as falhas claramente, mas nunca despeje saídas de sucesso detalhadas no contexto do agente. O sucesso deve ser silencioso. As falhas devem ser barulhentas.

6. Loops de Autoverificação

Force os agentes a verificar seu próprio trabalho antes de marcar as tarefas como concluídas:

Execute a suíte de testes após as alterações
Verifique se o build passa
Verifique se a saída corresponde à especificação
Tire um screenshot e compare (para trabalho de UI)

Esta é a diferença entre um agente que "acha que terminou" e um que realmente terminou.

7. Documentação de Progresso

Para tarefas de longa duração (mais de 30 minutos):

Mantenha um arquivo de progresso que rastreia as etapas concluídas
Faça commits do trabalho frequentemente para que as sessões subsequentes possam continuar
Use listas de tarefas estruturadas, não notas de forma livre

Dessa forma, se uma sessão de agente travar ou ficar sem contexto, a próxima sessão continua de onde a última parou.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Resultados no Mundo Real

Equipe OpenAI Codex

3 engenheiros produziram uma base de código de um milhão de linhas com zero código escrito manualmente ao longo de 5 meses. Eles tiveram uma média de 3,5 PRs mesclados por engenheiro por dia — uma produtividade impossível sem um harness maduro.

O harness deles incluía: convenções de commit estritas, testes automatizados em cada PR e pipelines de CI/CD cientes de agentes.

"Minions" da Stripe

O sistema interno da Stripe produz mais de 1.000 PRs mesclados por semana usando agentes de IA. O harness deles inclui:

Definições de tarefas estritamente delimitadas
Revisão de código obrigatória por humanos
Testes de regressão automatizados
Automação de rollback

Arquitetura de Dois Agentes da Anthropic

A Anthropic publicou sua abordagem para harnesses eficazes para agentes de longa duração:

Listas de funcionalidades estruturadas como formato de transferência entre agentes
Rastreamento de progresso baseado em Git para que os agentes possam retomar após interrupções
Critérios de saída explícitos para que os agentes saibam quando parar

Como Começar a Construir Seu Harness

Passo 1: Crie Seu Arquivo de Contexto

Adicione um CLAUDE.md (ou AGENTS.md) à raiz do seu projeto:

markdown

# Projeto: [Seu Projeto]

## Stack
[Framework, linguagem, banco de dados, hospedagem]

## Arquitetura
[Estrutura de diretórios com descrições de uma linha]

## Regras
[5-10 regras rígidas que o agente deve seguir]

## Tarefas Comuns
[Como executar testes, build, deploy]

Passo 2: Adicione Restrições Estruturais

bash

# Exemplo: Regra de ESLint impedindo importações diretas de DB em componentes
# .eslintrc — regra no-restricted-imports

Configure pre-commit hooks que imponham suas regras automaticamente.

Passo 3: Construa Loops de Verificação de Build

Certifique-se de que seu agente possa:

Executar testes (npm test, pytest, etc.)

Verificar tipos (tsc --noEmit, mypy)

Fazer lint (eslint ., ruff check)

Conecte-os ao fluxo de trabalho do seu agente para que sejam executados após cada alteração.

Passo 4: Delimite as Sessões do Agente

Não dê ao agente todo o seu backlog. Em vez disso:

Uma funcionalidade por sessão
Uma correção de bug por sessão
Critérios de aceitação claros para cada tarefa

Passo 5: Itere no Harness

Toda vez que um agente cometer um erro:

Identifique a causa raiz
Adicione uma regra, restrição ou hook que o previna
Teste a correção

Com o tempo, seu harness melhora e seus agentes tornam-se mais confiáveis — sem precisar atualizar o modelo.

Engenharia de Harness vs. Prompt Engineering

Prompt Engineering	Engenharia de Harness
Foco	O que você diz ao modelo	O que você constrói em torno do modelo
Durabilidade	Frágil, dependente do modelo	Robusta, agnóstica ao modelo
Efeito Cumulativo	Não melhora com o tempo	Melhora a cada iteração
Escopo	Interação única	Fluxo de trabalho completo
Tipo de Habilidade	Escrita	Engenharia de sistemas

O prompt engineering ainda é útil, mas é uma pequena parte do quadro geral. A engenharia de harness é o multiplicador.

O Papel Emergente: O Engenheiro de Harness

A engenharia está se dividindo em duas metades:

Construção de Ambiente — criando estrutura, ferramentas, restrições e loops de feedback
Gerenciamento de Trabalho — planejando, revisando e orquestrando sessões paralelas de agentes

Os engenheiros que prosperarão em 2026 não são aqueles que escrevem mais código. São aqueles que constroem os melhores ambientes para os agentes escreverem código.

Não Confundir Com: Harness.io

Se você pesquisou "Harness Engineering" procurando pela plataforma de DevOps — o Harness.io é algo totalmente diferente. É uma plataforma de CI/CD baseada em IA avaliada em US$ 5,5 bilhões (em dezembro de 2025) que oferece integração contínua, entrega, feature flags, gerenciamento de custos de nuvem e testes de segurança.

Embora o Harness.io e a engenharia de harness compartilhem o nome, eles resolvem problemas diferentes. No entanto, há uma sobreposição interessante: o DevOps baseado em IA do Harness.io é indiscutivelmente uma aplicação dos princípios de engenharia de harness ao pipeline de implantação.

Conclusão

O modelo é o motor. O harness é o carro. Ninguém ganha uma corrida apenas com um motor.

Se você estiver usando agentes de codificação de IA em 2026 e não estiver investindo em seu harness, está deixando a maior parte do valor na mesa. Comece com um arquivo de contexto, adicione restrições, construa loops de verificação e itere toda vez que algo quebrar.

As equipes que entregam mais rápido não estão usando modelos melhores. Elas estão usando harnesses melhores.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Voltar ao blog

26 de março de 2026·Y Build Team

Engenharia de Harness: Construindo Sistemas em Torno de Agentes de IA (2026)

Engenharia de HarnessAgentes de IAAgentes de CodificaçãoClaude CodeCodexDevOpsEngenharia de Software2026

TL;DR

Conceito	Resumo
Fórmula	Agente = Modelo + Harness
O que é um harness?	Tudo ao redor do modelo de IA: contexto, restrições, ferramentas, loops de verificação
Insight chave	LangChain melhorou a precisão do agente de 52,8% → 66,5% mudando apenas o harness, não o modelo
Quem está usando	OpenAI (Codex), Stripe (1.000+ PRs/semana), Anthropic, Vercel
Componentes principais	Engenharia de contexto, restrições arquiteturais, ferramentas/MCP, subagentes, hooks, autoverificação

O Que É Engenharia de Harness?

Engenharia de harness é a disciplina de construir sistemas, ferramentas, restrições e loops de feedback em torno de agentes de codificação de IA para torná-los confiáveis e produtivos.

O termo foi cunhado por Mitchell Hashimoto (co-fundador da HashiCorp) e ganhou atenção do grande público quando a OpenAI publicou seu artigo sobre o Codex sobre o tema no início de 2026.

A ideia central é simples:

Agente = Modelo + Harness

O modelo fornece inteligência. O harness torna essa inteligência útil. Um harness melhor geralmente importa mais do que um modelo melhor.

Por Que Isso Importa Agora

O princípio orientador de Mitchell Hashimoto:

"Sempre que você descobrir que um agente cometeu um erro, reserve um tempo para projetar uma solução de modo que o agente nunca mais cometa esse erro."

Isso não é prompt engineering. É engenharia de sistemas para IA.

A Evidência: Harness > Modelo

As mudanças incluíram:

Melhores arquivos de contexto (AGENTS.md)

Restrições de saída estruturada

Loops de autoverificação

Otimização de ferramentas

Isso confirma o que os profissionais vêm dizendo: o teto não é o modelo. É o que você coloca ao redor dele.

Os 7 Componentes de um Harness

1. Engenharia de Contexto

A engenharia de contexto é a base. É aqui que você fornece ao agente um mapa da sua base de código, suas convenções e suas restrições.

Na prática:

Arquivos CLAUDE.md / AGENTS.md na raiz do seu repositório
Mapas de diretórios e visões gerais da arquitetura
Regras de estilo de codificação e convenções de nomenclatura

Regra chave: Mantenha os arquivos de contexto abaixo de 60 linhas. Os agentes perdem o foco com documentos longos — dê a eles um mapa, não um manual de 1.000 páginas.

markdown

# Exemplo de CLAUDE.md
## Arquitetura
- src/app/ — páginas do app router do Next.js
- src/lib/ — utilitários compartilhados e clientes de API
- src/components/ — componentes React (estilos co-localizados)

## Regras
- Use server components por padrão
- Nunca importe de node_modules diretamente em componentes
- Todas as chamadas de API passam por src/lib/api.ts

2. Restrições Arquiteturais

Em vez de esperar que o agente escolha a arquitetura correta, imponha-a.

Arquiteturas em camadas rígidas validadas por linters
Testes estruturais que falham se os padrões forem violados
Restrições de importação via regras de ESLint ou scripts personalizados

A ideia: restringir o espaço de solução em vez de expandi-lo. Menos opções válidas significam menos respostas erradas.

3. Ferramentas & Servidores MCP

Os agentes precisam de ferramentas para serem eficazes. Os melhores harnesses expõem ferramentas internas via:

Wrappers de CLI — prefira CLIs conhecidas (git, docker, npm) em vez de ferramentas personalizadas
Servidores MCP (Model Context Protocol) — permita que os agentes chamem suas APIs internas, bancos de dados e serviços
Acesso ao sistema de arquivos — com escopo definido para diretórios específicos para evitar danos acidentais

4. Subagentes & Firewalls de Contexto

Sessões de agentes de longa duração acumulam contexto que eventualmente degrada o desempenho — isso é chamado de deterioração de contexto (context rot).

A solução: subagentes com firewalls de contexto.

Divida tarefas complexas em subtarefas discretas
Cada subtarefa é executada em sua própria sessão com um contexto novo
Passe apenas resultados estruturados entre agentes, não a conversa bruta

A arquitetura publicada pela Anthropic usa dois agentes:

Agente Inicializador — planeja o trabalho, cria uma lista de funcionalidades
Agente de Codificação — executa cada funcionalidade isoladamente

5. Hooks & Back-Pressure

Loops de feedback automatizados que capturam erros antes que eles se acumulem:

Pre-commit hooks — verificação de tipos, linting, formatação
Test runners — os agentes devem executar testes após cada alteração
Verificação de build — falhe rapidamente em builds quebrados

Regra de design crítica: Exiba as falhas claramente, mas nunca despeje saídas de sucesso detalhadas no contexto do agente. O sucesso deve ser silencioso. As falhas devem ser barulhentas.

6. Loops de Autoverificação

Force os agentes a verificar seu próprio trabalho antes de marcar as tarefas como concluídas:

Execute a suíte de testes após as alterações
Verifique se o build passa
Verifique se a saída corresponde à especificação
Tire um screenshot e compare (para trabalho de UI)

Esta é a diferença entre um agente que "acha que terminou" e um que realmente terminou.

7. Documentação de Progresso

Para tarefas de longa duração (mais de 30 minutos):

Mantenha um arquivo de progresso que rastreia as etapas concluídas
Faça commits do trabalho frequentemente para que as sessões subsequentes possam continuar
Use listas de tarefas estruturadas, não notas de forma livre

Dessa forma, se uma sessão de agente travar ou ficar sem contexto, a próxima sessão continua de onde a última parou.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Resultados no Mundo Real

Equipe OpenAI Codex

O harness deles incluía: convenções de commit estritas, testes automatizados em cada PR e pipelines de CI/CD cientes de agentes.

"Minions" da Stripe

O sistema interno da Stripe produz mais de 1.000 PRs mesclados por semana usando agentes de IA. O harness deles inclui:

Definições de tarefas estritamente delimitadas
Revisão de código obrigatória por humanos
Testes de regressão automatizados
Automação de rollback

Arquitetura de Dois Agentes da Anthropic

A Anthropic publicou sua abordagem para harnesses eficazes para agentes de longa duração:

Listas de funcionalidades estruturadas como formato de transferência entre agentes
Rastreamento de progresso baseado em Git para que os agentes possam retomar após interrupções
Critérios de saída explícitos para que os agentes saibam quando parar

Como Começar a Construir Seu Harness

Passo 1: Crie Seu Arquivo de Contexto

Adicione um CLAUDE.md (ou AGENTS.md) à raiz do seu projeto:

markdown

# Projeto: [Seu Projeto]

## Stack
[Framework, linguagem, banco de dados, hospedagem]

## Arquitetura
[Estrutura de diretórios com descrições de uma linha]

## Regras
[5-10 regras rígidas que o agente deve seguir]

## Tarefas Comuns
[Como executar testes, build, deploy]

Passo 2: Adicione Restrições Estruturais

bash

# Exemplo: Regra de ESLint impedindo importações diretas de DB em componentes
# .eslintrc — regra no-restricted-imports

Configure pre-commit hooks que imponham suas regras automaticamente.

Passo 3: Construa Loops de Verificação de Build

Certifique-se de que seu agente possa:

Executar testes (npm test, pytest, etc.)

Verificar tipos (tsc --noEmit, mypy)

Fazer lint (eslint ., ruff check)

Conecte-os ao fluxo de trabalho do seu agente para que sejam executados após cada alteração.

Passo 4: Delimite as Sessões do Agente

Não dê ao agente todo o seu backlog. Em vez disso:

Uma funcionalidade por sessão
Uma correção de bug por sessão
Critérios de aceitação claros para cada tarefa

Passo 5: Itere no Harness

Toda vez que um agente cometer um erro:

Identifique a causa raiz
Adicione uma regra, restrição ou hook que o previna
Teste a correção

Com o tempo, seu harness melhora e seus agentes tornam-se mais confiáveis — sem precisar atualizar o modelo.

Engenharia de Harness vs. Prompt Engineering

Prompt Engineering	Engenharia de Harness
Foco	O que você diz ao modelo	O que você constrói em torno do modelo
Durabilidade	Frágil, dependente do modelo	Robusta, agnóstica ao modelo
Efeito Cumulativo	Não melhora com o tempo	Melhora a cada iteração
Escopo	Interação única	Fluxo de trabalho completo
Tipo de Habilidade	Escrita	Engenharia de sistemas

O prompt engineering ainda é útil, mas é uma pequena parte do quadro geral. A engenharia de harness é o multiplicador.

O Papel Emergente: O Engenheiro de Harness

A engenharia está se dividindo em duas metades:

Construção de Ambiente — criando estrutura, ferramentas, restrições e loops de feedback
Gerenciamento de Trabalho — planejando, revisando e orquestrando sessões paralelas de agentes

Os engenheiros que prosperarão em 2026 não são aqueles que escrevem mais código. São aqueles que constroem os melhores ambientes para os agentes escreverem código.

Não Confundir Com: Harness.io

Conclusão

O modelo é o motor. O harness é o carro. Ninguém ganha uma corrida apenas com um motor.

As equipes que entregam mais rápido não estão usando modelos melhores. Elas estão usando harnesses melhores.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.