Harness Engineering: Pagbuo ng mga System sa Paligid ng AI Agents (2026)

TL;DR

Konsepto	Buod
Formula	Agent = Model + Harness
Ano ang harness?	Lahat ng nasa paligid ng AI model: context, constraints, tools, verification loops
Pangunahing insight	Pinahusay ng LangChain ang accuracy ng agent mula 52.8% → 66.5% sa pagpapalit lamang ng harness, hindi ang model
Sino ang gumagamit nito	OpenAI (Codex), Stripe (1,000+ PRs/week), Anthropic, Vercel
Mga core component	Context engineering, architectural constraints, tools/MCP, sub-agents, hooks, self-verification

Ano Is Harness Engineering?

Ang harness engineering ay ang disiplina ng pagbuo ng mga system, tool, constraint, at feedback loop sa paligid ng AI coding agents upang gawin itong reliable at produktibo.

Ang termino ay binuo ni Mitchell Hashimoto (co-founder ng HashiCorp) at nakuha ang atensyon ng nakararami nang inilathala ng OpenAI ang kanilang Codex article tungkol sa paksa noong unang bahagi ng 2026.

Ang pangunahing ideya ay simple:

Agent = Model + Harness

Ang model ang nagbibigay ng talino (intelligence). Ang harness ang gumagawa sa talinong iyon na maging kapaki-pakinabang. Ang mas mahusay na harness ay madalas na mas mahalaga kaysa sa mas mahusay na model.

Bakit Ito Mahalaga Ngayon

Noong 2025, lahat ng team ay nag-adopt ng AI coding agents. Ngayong 2026, ang mga nanalong team ay ang mga nag-engineer ng kanilang agent environments — hindi lang basta pumili ng pinakamahusay na model.

Ang gabay na prinsipyo ni Mitchell Hashimoto:

"Anumang oras na makakita ka ng pagkakamali ng isang agent, maglaan ng oras upang mag-engineer ng solusyon upang hindi na kailanman muling magawa ng agent ang pagkakamaling iyon."

Hindi ito prompt engineering. Ito ay systems engineering para sa AI.

Ang Katibayan: Harness > Model

Nagpatakbo ang LangChain ng isang controlled experiment sa Terminal Bench 2.0. Nang hindi binabago ang pinagbabatayang model, pinahusay nila ang accuracy ng kanilang coding agent mula 52.8% hanggang 66.5% — isang 26% na pagpapabuti — sa pamamagitan lamang ng pagpapahusay sa harness.

Kasama sa mga pagbabago ang:

Mas mahusay na mga context file (AGENTS.md)

Structured output constraints

Self-verification loops

Tool optimization

Kinukumpirma nito ang sinasabi ng mga practitioner: ang limitasyon ay hindi ang model. Ito ay kung ano ang inilalagay mo sa paligid nito.

Ang 7 Component ng isang Harness

1. Context Engineering

Ang context engineering ang pundasyon. Dito mo binibigyan ang agent ng mapa ng iyong codebase, ang iyong mga convention, at ang iyong mga constraint.

Sa pagsasanay:

CLAUDE.md / AGENTS.md na mga file sa root ng iyong repo
Mga directory map at architecture overview
Mga coding style rule at naming convention

Pangunahing panuntunan: Panatilihing mas mababa sa 60 linya ang mga context file. Nawawalan ng focus ang mga agent sa mahahabang dokumento — bigyan sila ng mapa, hindi isang 1,000-pahinang manual.

markdown

# CLAUDE.md example
## Architecture
- src/app/ — Next.js app router pages
- src/lib/ — shared utilities and API clients
- src/components/ — React components (co-located styles)

## Rules
- Use server components by default
- Never import from node_modules directly in components
- All API calls go through src/lib/api.ts

2. Architectural Constraints

Sa halip na umasang pipiliin ng agent ang tamang architecture, ipatupad ito.

Mahigpit na layered architectures na naba-validate ng mga linter
Structural tests na nagfe-fail kung ang mga pattern ay nalabag
Mga import restriction sa pamamagitan ng ESLint rules o custom scripts

Ang ideya: limitahan ang solution space sa halip na palawakin ito. Ang mas kaunting valid na opsyon ay nangangahulugan ng mas kaunting maling sagot.

3. Tools & MCP Servers

Kailangan ng mga agent ng mga tool para maging epektibo. Inilalantad ng pinakamahusay na mga harness ang internal tooling sa pamamagitan ng:

CLI wrappers — mas piliin ang mga kilalang CLI (git, docker, npm) kaysa sa custom tooling
MCP (Model Context Protocol) servers — hayaan ang mga agent na tumawag sa iyong internal APIs, databases, at services
File system access — naka-scope sa mga partikular na directory upang maiwasan ang accidental damage

Pro tip: Mas piliin ang mga well-documented na standard tool. Kayang gamitin ng agent ang git nang perpekto dahil mayroon itong malawak na training data tungkol dito. Ang isang custom CLI na walang docs ay makakalito sa kanya.

4. Sub-Agents & Context Firewalls

Ang mga long-running agent sessions ay nag-iipon ng context na sa huli ay nagpapababa ng performance — tinatawag itong context rot.

Ang solusyon: mga sub-agent na may mga context firewall.

Hatiin ang mga kumplikadong task sa mga discrete na sub-task
Ang bawat sub-task ay tumatakbo sa sarili nitong session na may fresh context
Ipasa lamang ang mga structured result sa pagitan ng mga agent, hindi ang raw conversation

Ang inilathalang architecture ng Anthropic ay gumagamit ng dalawang agent:

Initializer Agent — nagpaplano ng trabaho, gumagawa ng feature list
Coding Agent — isinasagawa ang bawat feature nang hiwalay

5. Hooks & Back-Pressure

Mga automated feedback loop na nakakahuli ng mga pagkakamali bago pa ito lumala:

Pre-commit hooks — type-checking, linting, formatting
Test runners — dapat magpatakbo ng tests ang mga agent pagkatapos ng bawat pagbabago
Build verification — mag-fail agad sa mga broken build

Kritikal na panuntunan sa disenyo: Ipakita nang malinaw ang mga failure, ngunit huwag kailanman maglagay ng verbose success output sa context ng agent. Ang tagumpay (success) ay dapat tahimik. Ang mga failure ay dapat maingay.

6. Self-Verification Loops

Pilitin ang mga agent na i-verify ang sarili nilang gawa bago markahan ang mga task bilang tapos na:

Patakbuhin ang test suite pagkatapos ng mga pagbabago
I-check kung pumasa ang build
I-verify kung ang output ay tumutugma sa specification
Kumuha ng screenshot at ikumpara (para sa UI work)

Ito ang pagkakaiba sa pagitan ng isang agent na "akalang tapos na siya" at isa na talagang tapos na.

7. Progress Documentation

Para sa mga gawaing matagal matapos (30+ minuto):

Magpanatili ng progress file na nagta-track ng mga nakumpletong hakbang
Mag-commit ng trabaho nang madalas upang ang mga susunod na session ay makapagpatuloy
Gumamit ng mga structured task list, hindi freeform notes

Sa ganitong paraan, kung mag-crash ang session ng agent o maubusan ng context, itutuloy ng susunod na session kung saan huminto ang huli.

Mga Real-World na Resulta

OpenAI Codex Team

3 engineer ang nakagawa ng million-line codebase nang walang manually-written code sa loob ng 5 buwan. Nag-average sila ng 3.5 merged PRs bawat engineer kada araw — isang throughput na imposible kung walang mature na harness.

Kasama sa kanilang harness ang: strict commit conventions, automated testing sa bawat PR, at agent-aware CI/CD pipelines.

Stripe's "Minions"

Ang internal system ng Stripe ay nakakagawa ng 1,000+ merged PRs kada linggo gamit ang AI agents. Kasama sa kanilang harness ang:

Tightly scoped task definitions
Mandatory code review ng mga tao
Automated regression testing
Rollback automation

Anthropic's Two-Agent Architecture

Inilathala ng Anthropic ang kanilang diskarte sa mga epektibong harness para sa long-running agents:

Structured feature lists bilang handoff format sa pagitan ng mga agent
Git-based progress tracking upang ang mga agent ay makapag-resume pagkatapos ng interruption
Explicit exit criteria upang malaman ng mga agent kung kailan hihinto

Paano Simulan ang Pagbuo ng Iyong Harness

Hakbang 1: Gumawa ng Iyong Context File

Magdagdag ng CLAUDE.md (o AGENTS.md) sa iyong project root:

markdown

# Project: [Iyong Project]

## Stack
[Framework, language, database, hosting]

## Architecture
[Directory structure na may one-line descriptions]

## Rules
[5-10 mahigpit na panuntunan na dapat sundin ng agent]

## Common Tasks
[Paano magpatakbo ng tests, build, deploy]

Hakbang 2: Magdagdag ng Structural Constraints

bash

# Halimbawa: ESLint rule na nagbabawal ng direktang DB imports sa components
# .eslintrc — no-restricted-imports rule

Mag-set up ng pre-commit hooks na awtomatikong nagpapatupad ng iyong mga panuntunan.

Hakbang 3: Bumuo ng Verification Loops

Siguraduhin na ang iyong agent ay kaya nang:

Magpatakbo ng tests (npm test, pytest, atbp.)

Mag-check ng types (tsc --noEmit, mypy)

Mag-lint (eslint ., ruff check)

I-wire ang mga ito sa workflow ng iyong agent upang tumakbo ang mga ito pagkatapos ng bawat pagbabago.

Hakbang 4: I-scope ang Agent Sessions

Huwag ibigay sa agent ang iyong buong backlog. Sa halip:

Isang feature bawat session
Isang bug fix bawat session
Malinaw na acceptance criteria para sa bawat task

Hakbang 5: I-iterate ang Harness

Sa bawat pagkakataon na magkamali ang agent:

Alamin ang root cause
Magdagdag ng rule, constraint, o hook na pipigil dito
I-test ang fix

Sa paglipas ng panahon, nagiging mas mahusay ang iyong harness at nagiging mas reliable ang iyong mga agent — nang hindi na kailangang i-upgrade ang model.

Harness Engineering vs. Prompt Engineering

Prompt Engineering	Harness Engineering
Focus	Ang sinasabi mo sa model	Ang binubuo mo sa paligid ng model
Durability	Marupok, depende sa model	Matatag, hindi nakadepende sa model
Compounds	Hindi bumubuti sa paglipas ng panahon	Lalong nagiging mahusay sa bawat iteration
Saklaw	Isang interaction	Buong workflow
Uri ng kasanayan	Pagsusulat	Systems engineering

Ang prompt engineering ay kapaki-pakinabang pa rin, ngunit ito ay maliit na bahagi lamang ng kabuuan. Ang harness engineering ang multiplier.

Ang Umuusbong na Papel: Ang Harness Engineer

Ang engineering ay nahahati sa dalawang bahagi:

Environment Building — paglikha ng structure, tools, constraints, at feedback loops
Work Management — pagpaplano, pagre-review, at pag-orchestrate ng parallel agent sessions

Ang mga engineer na uunlad sa 2026 ay hindi ang mga nagsusulat ng pinakamaraming code. Sila ang mga bumubuo ng pinakamahusay na environment para sa mga agent upang magsulat ng code.

Hindi Dapat Ipagkamali Sa: Harness.io

Kung hinanap mo ang "Harness Engineering" habang naghahanap ng DevOps platform — ang Harness.io ay isang ganap na hiwalay na bagay. Ito ay isang AI-powered CI/CD platform na may halagang $5.5B (noong Disyembre 2025) na nag-aalok ng continuous integration, delivery, feature flags, cloud cost management, at security testing.

Bagama't pareho ang pangalan ng Harness.io at harness engineering, magkaibang problema ang nilulutas ng mga ito. Gayunpaman, mayroong kawili-wiling overlap: ang AI-powered DevOps ng Harness.io ay masasabing isang application ng harness engineering principles sa deployment pipeline.

Bottom Line

Ang model ang makina. Ang harness ang kotse. Walang nananalo sa karera gamit lang ang makina.

Kung gumagamit ka ng AI coding agents sa 2026 at hindi nag-i-invest sa iyong harness, sinasayang mo ang karamihan ng halaga nito. Magsimula sa isang context file, magdagdag ng constraints, bumuo ng verification loops, at mag-iterate sa tuwing may nasisira.

Ang mga team na pinakamabilis mag-ship ay hindi gumagamit ng mas mahusay na models. Gumagamit sila ng mas mahusay na harnesses.

TL;DR

Konsepto	Buod
Formula	Agent = Model + Harness
Ano ang harness?	Lahat ng nasa paligid ng AI model: context, constraints, tools, verification loops
Pangunahing insight	Pinahusay ng LangChain ang accuracy ng agent mula 52.8% → 66.5% sa pagpapalit lamang ng harness, hindi ang model
Sino ang gumagamit nito	OpenAI (Codex), Stripe (1,000+ PRs/week), Anthropic, Vercel
Mga core component	Context engineering, architectural constraints, tools/MCP, sub-agents, hooks, self-verification

Ano Is Harness Engineering?

Ang harness engineering ay ang disiplina ng pagbuo ng mga system, tool, constraint, at feedback loop sa paligid ng AI coding agents upang gawin itong reliable at produktibo.

Ang pangunahing ideya ay simple:

Agent = Model + Harness

Bakit Ito Mahalaga Ngayon

Ang gabay na prinsipyo ni Mitchell Hashimoto:

"Anumang oras na makakita ka ng pagkakamali ng isang agent, maglaan ng oras upang mag-engineer ng solusyon upang hindi na kailanman muling magawa ng agent ang pagkakamaling iyon."

Hindi ito prompt engineering. Ito ay systems engineering para sa AI.

Ang Katibayan: Harness > Model

Kasama sa mga pagbabago ang:

Mas mahusay na mga context file (AGENTS.md)

Structured output constraints

Self-verification loops

Tool optimization

Kinukumpirma nito ang sinasabi ng mga practitioner: ang limitasyon ay hindi ang model. Ito ay kung ano ang inilalagay mo sa paligid nito.

Ang 7 Component ng isang Harness

1. Context Engineering

Ang context engineering ang pundasyon. Dito mo binibigyan ang agent ng mapa ng iyong codebase, ang iyong mga convention, at ang iyong mga constraint.

Sa pagsasanay:

CLAUDE.md / AGENTS.md na mga file sa root ng iyong repo
Mga directory map at architecture overview
Mga coding style rule at naming convention

markdown

# CLAUDE.md example
## Architecture
- src/app/ — Next.js app router pages
- src/lib/ — shared utilities and API clients
- src/components/ — React components (co-located styles)

## Rules
- Use server components by default
- Never import from node_modules directly in components
- All API calls go through src/lib/api.ts

2. Architectural Constraints

Sa halip na umasang pipiliin ng agent ang tamang architecture, ipatupad ito.

Mahigpit na layered architectures na naba-validate ng mga linter
Structural tests na nagfe-fail kung ang mga pattern ay nalabag
Mga import restriction sa pamamagitan ng ESLint rules o custom scripts

Ang ideya: limitahan ang solution space sa halip na palawakin ito. Ang mas kaunting valid na opsyon ay nangangahulugan ng mas kaunting maling sagot.

3. Tools & MCP Servers

Kailangan ng mga agent ng mga tool para maging epektibo. Inilalantad ng pinakamahusay na mga harness ang internal tooling sa pamamagitan ng:

CLI wrappers — mas piliin ang mga kilalang CLI (git, docker, npm) kaysa sa custom tooling
MCP (Model Context Protocol) servers — hayaan ang mga agent na tumawag sa iyong internal APIs, databases, at services
File system access — naka-scope sa mga partikular na directory upang maiwasan ang accidental damage

4. Sub-Agents & Context Firewalls

Ang mga long-running agent sessions ay nag-iipon ng context na sa huli ay nagpapababa ng performance — tinatawag itong context rot.

Ang solusyon: mga sub-agent na may mga context firewall.

Hatiin ang mga kumplikadong task sa mga discrete na sub-task
Ang bawat sub-task ay tumatakbo sa sarili nitong session na may fresh context
Ipasa lamang ang mga structured result sa pagitan ng mga agent, hindi ang raw conversation

Ang inilathalang architecture ng Anthropic ay gumagamit ng dalawang agent:

Initializer Agent — nagpaplano ng trabaho, gumagawa ng feature list
Coding Agent — isinasagawa ang bawat feature nang hiwalay

5. Hooks & Back-Pressure

Mga automated feedback loop na nakakahuli ng mga pagkakamali bago pa ito lumala:

Pre-commit hooks — type-checking, linting, formatting
Test runners — dapat magpatakbo ng tests ang mga agent pagkatapos ng bawat pagbabago
Build verification — mag-fail agad sa mga broken build

6. Self-Verification Loops

Pilitin ang mga agent na i-verify ang sarili nilang gawa bago markahan ang mga task bilang tapos na:

Patakbuhin ang test suite pagkatapos ng mga pagbabago
I-check kung pumasa ang build
I-verify kung ang output ay tumutugma sa specification
Kumuha ng screenshot at ikumpara (para sa UI work)

Ito ang pagkakaiba sa pagitan ng isang agent na "akalang tapos na siya" at isa na talagang tapos na.

7. Progress Documentation

Para sa mga gawaing matagal matapos (30+ minuto):

Magpanatili ng progress file na nagta-track ng mga nakumpletong hakbang
Mag-commit ng trabaho nang madalas upang ang mga susunod na session ay makapagpatuloy
Gumamit ng mga structured task list, hindi freeform notes

Sa ganitong paraan, kung mag-crash ang session ng agent o maubusan ng context, itutuloy ng susunod na session kung saan huminto ang huli.

Mga Real-World na Resulta

OpenAI Codex Team

Kasama sa kanilang harness ang: strict commit conventions, automated testing sa bawat PR, at agent-aware CI/CD pipelines.

Stripe's "Minions"

Ang internal system ng Stripe ay nakakagawa ng 1,000+ merged PRs kada linggo gamit ang AI agents. Kasama sa kanilang harness ang:

Tightly scoped task definitions
Mandatory code review ng mga tao
Automated regression testing
Rollback automation

Anthropic's Two-Agent Architecture

Inilathala ng Anthropic ang kanilang diskarte sa mga epektibong harness para sa long-running agents:

Structured feature lists bilang handoff format sa pagitan ng mga agent
Git-based progress tracking upang ang mga agent ay makapag-resume pagkatapos ng interruption
Explicit exit criteria upang malaman ng mga agent kung kailan hihinto

Paano Simulan ang Pagbuo ng Iyong Harness

Hakbang 1: Gumawa ng Iyong Context File

Magdagdag ng CLAUDE.md (o AGENTS.md) sa iyong project root:

markdown

# Project: [Iyong Project]

## Stack
[Framework, language, database, hosting]

## Architecture
[Directory structure na may one-line descriptions]

## Rules
[5-10 mahigpit na panuntunan na dapat sundin ng agent]

## Common Tasks
[Paano magpatakbo ng tests, build, deploy]

Hakbang 2: Magdagdag ng Structural Constraints

bash

# Halimbawa: ESLint rule na nagbabawal ng direktang DB imports sa components
# .eslintrc — no-restricted-imports rule

Mag-set up ng pre-commit hooks na awtomatikong nagpapatupad ng iyong mga panuntunan.

Hakbang 3: Bumuo ng Verification Loops

Siguraduhin na ang iyong agent ay kaya nang:

Magpatakbo ng tests (npm test, pytest, atbp.)

Mag-check ng types (tsc --noEmit, mypy)

Mag-lint (eslint ., ruff check)

I-wire ang mga ito sa workflow ng iyong agent upang tumakbo ang mga ito pagkatapos ng bawat pagbabago.

Hakbang 4: I-scope ang Agent Sessions

Huwag ibigay sa agent ang iyong buong backlog. Sa halip:

Isang feature bawat session
Isang bug fix bawat session
Malinaw na acceptance criteria para sa bawat task

Hakbang 5: I-iterate ang Harness

Sa bawat pagkakataon na magkamali ang agent:

Alamin ang root cause
Magdagdag ng rule, constraint, o hook na pipigil dito
I-test ang fix

Sa paglipas ng panahon, nagiging mas mahusay ang iyong harness at nagiging mas reliable ang iyong mga agent — nang hindi na kailangang i-upgrade ang model.

Harness Engineering vs. Prompt Engineering

Prompt Engineering	Harness Engineering
Focus	Ang sinasabi mo sa model	Ang binubuo mo sa paligid ng model
Durability	Marupok, depende sa model	Matatag, hindi nakadepende sa model
Compounds	Hindi bumubuti sa paglipas ng panahon	Lalong nagiging mahusay sa bawat iteration
Saklaw	Isang interaction	Buong workflow
Uri ng kasanayan	Pagsusulat	Systems engineering

Ang prompt engineering ay kapaki-pakinabang pa rin, ngunit ito ay maliit na bahagi lamang ng kabuuan. Ang harness engineering ang multiplier.

Ang Umuusbong na Papel: Ang Harness Engineer

Ang engineering ay nahahati sa dalawang bahagi:

Environment Building — paglikha ng structure, tools, constraints, at feedback loops
Work Management — pagpaplano, pagre-review, at pag-orchestrate ng parallel agent sessions

Ang mga engineer na uunlad sa 2026 ay hindi ang mga nagsusulat ng pinakamaraming code. Sila ang mga bumubuo ng pinakamahusay na environment para sa mga agent upang magsulat ng code.

Hindi Dapat Ipagkamali Sa: Harness.io

Bottom Line

Ang model ang makina. Ang harness ang kotse. Walang nananalo sa karera gamit lang ang makina.

Ang mga team na pinakamabilis mag-ship ay hindi gumagamit ng mas mahusay na models. Gumagamit sila ng mas mahusay na harnesses.