26. marts 2026·Y Build Team

Harness Engineering: Byg systemer omkring AI-agenter (2026)

Harness engineering er måden, de bedste teams gør AI-kodningsagenter pålidelige på. Lær formlen Agent = Model + Harness, kernekomponenter og reelle resultater fra OpenAI, Stripe og Anthropic.

Harness EngineeringAI-agenterKodningsagenterClaude CodeCodexDevOpsSoftware Engineering2026

TL;DR

Koncept	Resumé
Formel	Agent = Model + Harness
Hvad er en harness?	Alt omkring AI-modellen: kontekst, begrænsninger, værktøjer, verifikationsloops
Vigtig indsigt	LangChain forbedrede agent-nøjagtighed fra 52,8 % → 66,5 % ved kun at ændre deres harness, ikke modellen
Hvem bruger det?	OpenAI (Codex), Stripe (1.000+ PR'er/uge), Anthropic, Vercel
Kernekomponenter	Kontekst-engineering, arkitektoniske begrænsninger, værktøjer/MCP, underagenter, hooks, selvverifikation

Hvad er Harness Engineering?

Harness engineering er disciplinen i at bygge systemer, værktøjer, begrænsninger og feedback-loops omkring AI-kodningsagenter for at gøre dem pålidelige og produktive.

Udtrykket blev opfundet af Mitchell Hashimoto (medstifter af HashiCorp) og fik bred opmærksomhed, da OpenAI publicerede deres Codex-artikel om emnet i starten af 2026.

Kerneidéen er enkel:

Agent = Model + Harness

Modellen leverer intelligens. Harness gør denne intelligens nyttig. En bedre harness betyder ofte mere end en bedre model.

Hvorfor det er vigtigt nu

I 2025 adopterede alle teams AI-kodningsagenter. I 2026 er vinderholdene dem, der engineerede deres agent-miljøer — og ikke blot valgte den bedste model.

Mitchell Hashimotos ledende princip:

"Hver gang du oplever, at en agent laver en fejl, bruger du tid på at designe en løsning, så agenten aldrig laver den fejl igen."

Dette er ikke prompt engineering. Det er systems engineering til AI.

Beviset: Harness > Model

LangChain udførte et kontrolleret eksperiment på Terminal Bench 2.0. Uden at ændre den underliggende model forbedrede de deres kodningsagents nøjagtighed fra 52,8 % til 66,5 % — en forbedring på 26 % — udelukkende ved at forbedre deres harness.

Ændringerne inkluderede:

Bedre kontekst-filer (AGENTS.md)

Strukturerede output-begrænsninger

Selvverifikations-loops

Værktøjsoptimering

Dette bekræfter, hvad praktikere har sagt: Loftet er ikke modellen. Det er det, du placerer omkring den.

De 7 komponenter i en Harness

1. Context Engineering

Kontekst-engineering er fundamentet. Det er her, du giver agenten et kort over dit codebase, dine konventioner og dine begrænsninger.

I praksis:

CLAUDE.md / AGENTS.md filer i din repo-root
Oversigtskort over mapper og arkitektur
Regler for kodestil og navngivningskonventioner

Nøgleregel: Hold kontekst-filer under 60 linjer. Agenter mister fokus ved lange dokumenter — giv dem et kort, ikke en manual på 1.000 sider.

markdown

# CLAUDE.md example
## Architecture
- src/app/ — Next.js app router pages
- src/lib/ — shared utilities and API clients
- src/components/ — React components (co-located styles)

## Rules
- Use server components by default
- Never import from node_modules directly in components
- All API calls go through src/lib/api.ts

2. Arkitektoniske begrænsninger

I stedet for at håbe på, at agenten vælger den rigtige arkitektur, så gennemtving den.

Stive lagdelte arkitekturer valideret af linters
Strukturelle tests, der fejler, hvis mønstre brydes
Import-restriktioner via ESLint-regler eller brugerdefinerede scripts

Idéen: Begræns løsningsrummet i stedet for at udvide det. Færre gyldige muligheder betyder færre forkerte svar.

3. Værktøjer & MCP-servere

Agenter har brug for værktøjer for at være effektive. De bedste harnesses eksponerer interne værktøjer via:

CLI-wrappers — foretræk velkendte CLI'er (git, docker, npm) frem for specialbyggede værktøjer
MCP (Model Context Protocol) servere — lad agenter kalde dine interne API'er, databaser og tjenester
Filsystem-adgang — afgrænset til specifikke mapper for at forhindre utilsigtede skader

Pro-tip: Foretræk veldokumenterede standardværktøjer. En agent kan bruge git perfekt, fordi den har enorme mængder træningsdata om det. En specialbygget CLI uden dokumentation vil forvirre den.

4. Underagenter & kontekst-firewalls

Langvarige agent-sessioner ophober kontekst, som til sidst forringer ydeevnen — dette kaldes context rot.

Løsningen: Underagenter med kontekst-firewalls.

Opdel komplekse opgaver i diskrete underopgaver
Hver underopgave kører i sin egen session med en frisk kontekst
Overfør kun strukturerede resultater mellem agenter, ikke den rå samtale

Anthropic's publicerede arkitektur bruger to agenter:

Initializer Agent — planlægger arbejdet, opretter en funktionsliste
Coding Agent — udfører hver funktion i isolation

5. Hooks & Back-Pressure

Automatiserede feedback-loops, der fanger fejl, før de hober sig op:

Pre-commit hooks — type-checking, linting, formatering
Test-runners — agenter bør køre tests efter hver ændring
Build-verifikation — fejl hurtigt ved ødelagte builds

Vigtig designregel: Vis fejl tydeligt, men dump aldrig verbose success-output i agent-konteksten. Succes skal være støjsvag. Fejl skal være højlydte.

6. Selvverifikations-loops

Tving agenter til at verificere deres eget arbejde, før de markerer opgaver som færdige:

Kør test-suiten efter ændringer
Tjek at buildet går igennem
Verificer at outputtet matcher specifikationen
Tag et screenshot og sammenlign (ved UI-arbejde)

Dette er forskellen på en agent, der "tror den er færdig", og en der rent faktisk er det.

7. Dokumentation af fremskridt

Ved langvarige opgaver (30+ minutter):

Vedligehold en fremskridtsfil, der sporer gennemførte trin
Commit arbejde ofte, så efterfølgende sessioner kan fortsætte
Brug strukturerede opgavelister, ikke fritformede noter

På denne måde, hvis en agent-session går ned eller løber tør for kontekst, kan den næste session fortsætte, hvor den forrige slap.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Resultater fra den virkelige verden

OpenAI Codex Team

3 ingeniører producerede en million-linjers codebase uden manuelt skrevet kode over 5 måneder. De snittede 3,5 mergede PR'er pr. ingeniør pr. dag — et gennemløb, der er umuligt uden en moden harness.

Deres harness inkluderede: Strikte commit-konventioner, automatiseret testning på hver PR og agent-bevidste CI/CD-pipelines.

Stripe's "Minions"

Stripe's interne system producerer 1.000+ mergede PR'er pr. uge ved hjælp af AI-agenter. Deres harness inkluderer:

Stramt definerede opgaveafgrænsninger
Obligatorisk code review af mennesker
Automatiseret regressionstestning
Rollback-automatisering

Anthropic's to-agent arkitektur

Anthropic publicerede deres tilgang til effektive harnesses for langvarige agenter:

Strukturerede funktionslister som format til overdragelse mellem agenter
Git-baseret fremskridtssporing, så agenter kan genoptage efter afbrydelser
Eksplicitte exit-kriterier, så agenter ved, hvornår de skal stoppe

Sådan begynder du at bygge din Harness

Trin 1: Opret din kontekst-fil

Tilføj en CLAUDE.md (eller AGENTS.md) til din projekt-rod:

markdown

# Project: [Your Project]

## Stack
[Framework, language, database, hosting]

## Architecture
[Directory structure with one-line descriptions]

## Rules
[5-10 hard rules the agent must follow]

## Common Tasks
[How to run tests, build, deploy]

Trin 2: Tilføj arkitektoniske begrænsninger

bash

# Example: ESLint rule preventing direct DB imports in components
# .eslintrc — no-restricted-imports rule

Opsæt pre-commit hooks, der håndhæver dine regler automatisk.

Trin 3: Byg verifikations-loops

Sørg for, at din agent kan:

Køre tests (npm test, pytest, osv.)

Tjekke typer (tsc --noEmit, mypy)

Linte (eslint ., ruff check)

Integrer disse i din agents arbejdsflow, så de kører efter hver ændring.

Trin 4: Afgræns agent-sessioner

Giv ikke en agent hele din backlog. I stedet:

Én funktion pr. session
Én fejlrettelse pr. session
Klare acceptkriterier for hver opgave

Trin 5: Iterer på din harness

Hver gang en agent laver en fejl:

Identificer rodårsagen
Tilføj en regel, begrænsning eller hook, der forhindrer det
Test rettelsen

Over tid bliver din harness bedre, og dine agenter bliver mere pålidelige — uden at du behøver at opgradere modellen.

Harness Engineering vs. Prompt Engineering

Prompt Engineering	Harness Engineering
Fokus	Hvad du siger til modellen	Hvad du bygger omkring modellen
Holdbarhed	Skrøbelig, model-afhængig	Robust, model-agnostisk
Akkumulering	Forbedres ikke over tid	Bliver bedre for hver iteration
Omfang	Enkeltstående interaktion	Hele arbejdsflowet
Kompetence	Skrivning	Systems engineering

Prompt engineering er stadig nyttigt, men det er kun en lille del af billedet. Harness engineering er multiplikatoren.

Den nye rolle: Harness Engineer

Ingeniørarbejde splittes i to halvdele:

Miljøbygning — skabelse af struktur, værktøjer, begrænsninger og feedback-loops
Arbejdsstyring — planlægning, review og orkestrering af parallelle agent-sessioner

De ingeniører, der trives i 2026, er ikke dem, der skriver mest kode. Det er dem, der bygger de bedste miljøer til agenterne, så de kan skrive koden.

Må ikke forveksles med: Harness.io

Hvis du søgte på "Harness Engineering" efter DevOps-platformen — så er Harness.io noget helt andet. Det er en AI-drevet CI/CD-platform værdisat til 5,5 mia. USD (pr. december 2025), der tilbyder kontinuerlig integration, levering, feature flags, styring af cloud-omkostninger og sikkerhedstestning.

Selvom Harness.io og harness engineering deler navn, løser de forskellige problemer. Dog er der et interessant overlap: Harness.io's AI-drevne DevOps er velsagtens en anvendelse af harness engineering-principper på deployment-pipelinen.

Konklusion

Modellen er motoren. Harness er bilen. Ingen vinder et løb med kun en motor.

Hvis du bruger AI-kodningsagenter i 2026 og ikke investerer i din harness, går du glip af størstedelen af værdien. Start med en kontekst-fil, tilføj begrænsninger, byg verifikations-loops og iterer hver gang noget går i stykker.

De teams, der leverer hurtigst, bruger ikke bedre modeller. De bruger bedre harnesses.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Tilbage til bloggen

26. marts 2026·Y Build Team

Harness Engineering: Byg systemer omkring AI-agenter (2026)

Harness engineering er måden, de bedste teams gør AI-kodningsagenter pålidelige på. Lær formlen Agent = Model + Harness, kernekomponenter og reelle resultater fra OpenAI, Stripe og Anthropic.

Harness EngineeringAI-agenterKodningsagenterClaude CodeCodexDevOpsSoftware Engineering2026

TL;DR

Koncept	Resumé
Formel	Agent = Model + Harness
Hvad er en harness?	Alt omkring AI-modellen: kontekst, begrænsninger, værktøjer, verifikationsloops
Vigtig indsigt	LangChain forbedrede agent-nøjagtighed fra 52,8 % → 66,5 % ved kun at ændre deres harness, ikke modellen
Hvem bruger det?	OpenAI (Codex), Stripe (1.000+ PR'er/uge), Anthropic, Vercel
Kernekomponenter	Kontekst-engineering, arkitektoniske begrænsninger, værktøjer/MCP, underagenter, hooks, selvverifikation

Hvad er Harness Engineering?

Harness engineering er disciplinen i at bygge systemer, værktøjer, begrænsninger og feedback-loops omkring AI-kodningsagenter for at gøre dem pålidelige og produktive.

Udtrykket blev opfundet af Mitchell Hashimoto (medstifter af HashiCorp) og fik bred opmærksomhed, da OpenAI publicerede deres Codex-artikel om emnet i starten af 2026.

Kerneidéen er enkel:

Agent = Model + Harness

Modellen leverer intelligens. Harness gør denne intelligens nyttig. En bedre harness betyder ofte mere end en bedre model.

Hvorfor det er vigtigt nu

I 2025 adopterede alle teams AI-kodningsagenter. I 2026 er vinderholdene dem, der engineerede deres agent-miljøer — og ikke blot valgte den bedste model.

Mitchell Hashimotos ledende princip:

"Hver gang du oplever, at en agent laver en fejl, bruger du tid på at designe en løsning, så agenten aldrig laver den fejl igen."

Dette er ikke prompt engineering. Det er systems engineering til AI.

Beviset: Harness > Model

Ændringerne inkluderede:

Bedre kontekst-filer (AGENTS.md)

Strukturerede output-begrænsninger

Selvverifikations-loops

Værktøjsoptimering

Dette bekræfter, hvad praktikere har sagt: Loftet er ikke modellen. Det er det, du placerer omkring den.

De 7 komponenter i en Harness

1. Context Engineering

Kontekst-engineering er fundamentet. Det er her, du giver agenten et kort over dit codebase, dine konventioner og dine begrænsninger.

I praksis:

CLAUDE.md / AGENTS.md filer i din repo-root
Oversigtskort over mapper og arkitektur
Regler for kodestil og navngivningskonventioner

Nøgleregel: Hold kontekst-filer under 60 linjer. Agenter mister fokus ved lange dokumenter — giv dem et kort, ikke en manual på 1.000 sider.

markdown

# CLAUDE.md example
## Architecture
- src/app/ — Next.js app router pages
- src/lib/ — shared utilities and API clients
- src/components/ — React components (co-located styles)

## Rules
- Use server components by default
- Never import from node_modules directly in components
- All API calls go through src/lib/api.ts

2. Arkitektoniske begrænsninger

I stedet for at håbe på, at agenten vælger den rigtige arkitektur, så gennemtving den.

Stive lagdelte arkitekturer valideret af linters
Strukturelle tests, der fejler, hvis mønstre brydes
Import-restriktioner via ESLint-regler eller brugerdefinerede scripts

Idéen: Begræns løsningsrummet i stedet for at udvide det. Færre gyldige muligheder betyder færre forkerte svar.

3. Værktøjer & MCP-servere

Agenter har brug for værktøjer for at være effektive. De bedste harnesses eksponerer interne værktøjer via:

CLI-wrappers — foretræk velkendte CLI'er (git, docker, npm) frem for specialbyggede værktøjer
MCP (Model Context Protocol) servere — lad agenter kalde dine interne API'er, databaser og tjenester
Filsystem-adgang — afgrænset til specifikke mapper for at forhindre utilsigtede skader

4. Underagenter & kontekst-firewalls

Langvarige agent-sessioner ophober kontekst, som til sidst forringer ydeevnen — dette kaldes context rot.

Løsningen: Underagenter med kontekst-firewalls.

Opdel komplekse opgaver i diskrete underopgaver
Hver underopgave kører i sin egen session med en frisk kontekst
Overfør kun strukturerede resultater mellem agenter, ikke den rå samtale

Anthropic's publicerede arkitektur bruger to agenter:

Initializer Agent — planlægger arbejdet, opretter en funktionsliste
Coding Agent — udfører hver funktion i isolation

5. Hooks & Back-Pressure

Automatiserede feedback-loops, der fanger fejl, før de hober sig op:

Pre-commit hooks — type-checking, linting, formatering
Test-runners — agenter bør køre tests efter hver ændring
Build-verifikation — fejl hurtigt ved ødelagte builds

Vigtig designregel: Vis fejl tydeligt, men dump aldrig verbose success-output i agent-konteksten. Succes skal være støjsvag. Fejl skal være højlydte.

6. Selvverifikations-loops

Tving agenter til at verificere deres eget arbejde, før de markerer opgaver som færdige:

Kør test-suiten efter ændringer
Tjek at buildet går igennem
Verificer at outputtet matcher specifikationen
Tag et screenshot og sammenlign (ved UI-arbejde)

Dette er forskellen på en agent, der "tror den er færdig", og en der rent faktisk er det.

7. Dokumentation af fremskridt

Ved langvarige opgaver (30+ minutter):

Vedligehold en fremskridtsfil, der sporer gennemførte trin
Commit arbejde ofte, så efterfølgende sessioner kan fortsætte
Brug strukturerede opgavelister, ikke fritformede noter

På denne måde, hvis en agent-session går ned eller løber tør for kontekst, kan den næste session fortsætte, hvor den forrige slap.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Resultater fra den virkelige verden

OpenAI Codex Team

Deres harness inkluderede: Strikte commit-konventioner, automatiseret testning på hver PR og agent-bevidste CI/CD-pipelines.

Stripe's "Minions"

Stripe's interne system producerer 1.000+ mergede PR'er pr. uge ved hjælp af AI-agenter. Deres harness inkluderer:

Stramt definerede opgaveafgrænsninger
Obligatorisk code review af mennesker
Automatiseret regressionstestning
Rollback-automatisering

Anthropic's to-agent arkitektur

Anthropic publicerede deres tilgang til effektive harnesses for langvarige agenter:

Strukturerede funktionslister som format til overdragelse mellem agenter
Git-baseret fremskridtssporing, så agenter kan genoptage efter afbrydelser
Eksplicitte exit-kriterier, så agenter ved, hvornår de skal stoppe

Sådan begynder du at bygge din Harness

Trin 1: Opret din kontekst-fil

Tilføj en CLAUDE.md (eller AGENTS.md) til din projekt-rod:

markdown

# Project: [Your Project]

## Stack
[Framework, language, database, hosting]

## Architecture
[Directory structure with one-line descriptions]

## Rules
[5-10 hard rules the agent must follow]

## Common Tasks
[How to run tests, build, deploy]

Trin 2: Tilføj arkitektoniske begrænsninger

bash

# Example: ESLint rule preventing direct DB imports in components
# .eslintrc — no-restricted-imports rule

Opsæt pre-commit hooks, der håndhæver dine regler automatisk.

Trin 3: Byg verifikations-loops

Sørg for, at din agent kan:

Køre tests (npm test, pytest, osv.)

Tjekke typer (tsc --noEmit, mypy)

Linte (eslint ., ruff check)

Integrer disse i din agents arbejdsflow, så de kører efter hver ændring.

Trin 4: Afgræns agent-sessioner

Giv ikke en agent hele din backlog. I stedet:

Én funktion pr. session
Én fejlrettelse pr. session
Klare acceptkriterier for hver opgave

Trin 5: Iterer på din harness

Hver gang en agent laver en fejl:

Identificer rodårsagen
Tilføj en regel, begrænsning eller hook, der forhindrer det
Test rettelsen

Over tid bliver din harness bedre, og dine agenter bliver mere pålidelige — uden at du behøver at opgradere modellen.

Harness Engineering vs. Prompt Engineering

Prompt Engineering	Harness Engineering
Fokus	Hvad du siger til modellen	Hvad du bygger omkring modellen
Holdbarhed	Skrøbelig, model-afhængig	Robust, model-agnostisk
Akkumulering	Forbedres ikke over tid	Bliver bedre for hver iteration
Omfang	Enkeltstående interaktion	Hele arbejdsflowet
Kompetence	Skrivning	Systems engineering

Prompt engineering er stadig nyttigt, men det er kun en lille del af billedet. Harness engineering er multiplikatoren.

Den nye rolle: Harness Engineer

Ingeniørarbejde splittes i to halvdele:

Miljøbygning — skabelse af struktur, værktøjer, begrænsninger og feedback-loops
Arbejdsstyring — planlægning, review og orkestrering af parallelle agent-sessioner

De ingeniører, der trives i 2026, er ikke dem, der skriver mest kode. Det er dem, der bygger de bedste miljøer til agenterne, så de kan skrive koden.

Må ikke forveksles med: Harness.io

Konklusion

Modellen er motoren. Harness er bilen. Ingen vinder et løb med kun en motor.

De teams, der leverer hurtigst, bruger ikke bedre modeller. De bruger bedre harnesses.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.