26. mars 2026·Y Build Team

Harness Engineering: Bygg systemer rundt AI-agenter (2026)

Harness engineering er hvordan toppteam gjør AI-kodeagenter pålitelige. Lær formelen Agent = Modell + Harness, kjernekomponenter og reelle resultater fra OpenAI, Stripe og Anthropic.

Harness EngineeringAI-agenterKodeagenterClaude CodeCodexDevOpsProgramvareutvikling2026

TL;DR

Konsept	Oppsummering
Formel	Agent = Modell + Harness
Hva er en harness?	Alt rundt AI-modellen: kontekst, begrensninger, verktøy, verifiseringsløkker
Viktig innsikt	LangChain forbedret agent-nøyaktighet fra 52,8 % → 66,5 % ved kun å endre harness, ikke modellen
Hvem bruker det	OpenAI (Codex), Stripe (1 000+ PR-er/uke), Anthropic, Vercel
Kjernekomponenter	Kontekstutvikling, arkitektoniske begrensninger, verktøy/MCP, under-agenter, hooks, selv-verifisering

Hva er Harness Engineering?

Harness engineering er disiplinen med å bygge systemer, verktøy, begrensninger og tilbakemeldingsløkker rundt AI-kodeagenter for å gjøre dem pålitelige og produktive.

Begrepet ble skapt av Mitchell Hashimoto (medgrunnlegger av HashiCorp) og fikk stor oppmerksomhet da OpenAI publiserte sin Codex-artikkel om emnet tidlig i 2026.

Kjerneideen er enkel:

Agent = Modell + Harness

Modellen gir intelligens. Harnessen gjør denne intelligensen nyttig. En bedre harness betyr ofte mer enn en bedre modell.

Hvorfor det betyr noe nå

I 2025 tok alle team i bruk AI-kodeagenter. I 2026 er vinnerteamene de som har utviklet agent-miljøene sine — ikke bare de som valgte den beste modellen.

Mitchell Hashimotos ledende prinsipp:

"Hver gang du oppdager at en agent gjør en feil, tar du deg tid til å utvikle en løsning slik at agenten aldri gjør den feilen igjen."

Dette er ikke prompt engineering. Det er systemutvikling for AI.

Beviset: Harness > Modell

LangChain kjørte et kontrollert eksperiment på Terminal Bench 2.0. Uten å endre den underliggende modellen, forbedret de kodeagentens nøyaktighet fra 52,8 % til 66,5 % — en forbedring på 26 % — kun ved å forbedre harnessen.

Endringene inkluderte:

Bedre kontekstfiler (AGENTS.md)

Strukturerte begrensninger for output

Selv-verifiseringsløkker

Verktøyoptimalisering

Dette bekrefter det praktikere har sagt: Taket er ikke modellen. Det er det du plasserer rundt den.

De 7 komponentene i en Harness

1. Kontekstutvikling (Context Engineering)

Kontekstutvikling er fundamentet. Dette er her du gir agenten et kart over kildekoden, konvensjonene dine og begrensningene dine.

I praksis:

CLAUDE.md / AGENTS.md-filer i roten av repoet
Katalogkart og arkitektoversikter
Regler for kodestil og navngivingskonvensjoner

Viktig regel: Hold kontekstfiler under 60 linjer. Agenter mister fokus med lange dokumenter — gi dem et kart, ikke en manual på 1 000 sider.

markdown

# CLAUDE.md eksempel
## Architecture
- src/app/ — Next.js app router pages
- src/lib/ — shared utilities and API clients
- src/components/ — React components (co-located styles)

## Rules
- Use server components by default
- Never import from node_modules directly in components
- All API calls go through src/lib/api.ts

2. Arkitektoniske begrensninger

I stedet for å håpe at agenten velger riktig arkitektur, bør du tvinge den fram.

Strenge lagdelte arkitekturer validert av lintere
Strukturelle tester som feiler hvis mønstre brytes
Importrestriksjoner via ESLint-regler eller egne skript

Ideen: Begrens løsningsrommet i stedet for å utvide det. Færre gyldige alternativer betyr færre feil svar.

3. Verktøy & MCP-servere

Agenter trenger verktøy for å være effektive. De beste harnessene eksponerer interne verktøy via:

CLI-wrappere — foretrekk kjente CLI-er (git, docker, npm) fremfor spesiallagde verktøy
MCP (Model Context Protocol)-servere — la agenter kalle dine interne API-er, databaser og tjenester
Filsystemtilgang — avgrenset til spesifikke kataloger for å forhindre utilsiktet skade

Proff-tips: Foretrekk veldokumenterte standardverktøy. En agent kan bruke git perfekt fordi den har enorme mengder treningsdata på det. En tilpasset CLI uten dokumentasjon vil forvirre den.

4. Under-agenter & kontekst-brannmurer

Langvarige agent-økter akkumulerer kontekst som til slutt svekker ytelsen — dette kalles kontekstforfall (context rot).

Løsningen: Under-agenter med kontekst-brannmurer.

Del komplekse oppgaver inn i diskrete deloppgaver
Hver deloppgave kjører i sin egen økt med en frisk kontekst
Send kun strukturerte resultater mellom agenter, ikke hele samtalen

Anthropics publiserte arkitektur bruker to agenter:

Initializer Agent — planlegger arbeidet, lager en funksjonsliste
Coding Agent — utfører hver funksjon i isolasjon

5. Hooks & Back-Pressure

Automatiserte tilbakemeldingsløkker som fanger opp feil før de eskalerer:

Pre-commit hooks — typesjekking, linting, formatering
Test-kjørere — agenter bør kjøre tester etter hver endring
Byggeverifisering — feil raskt ved ødelagte bygg (builds)

Kritisk designregel: Vis feil tydelig, men aldri dump detaljert suksess-output i agentens kontekst. Suksess bør være stille. Feil bør være høylytte.

6. Selv-verifiseringsløkker

Tving agenter til å verifisere sitt eget arbeid før de markerer oppgaver som fullførte:

Kjør testsuiten etter endringer
Sjekk at bygget passerer
Verifiser at output samsvarer med spesifikasjonen
Ta et skjermbilde og sammenlign (for UI-arbeid)

Dette er forskjellen på en agent som "tror den er ferdig" og en som faktisk er det.

7. Dokumentasjon av fremdrift

For langvarige oppgaver (30+ minutter):

Vedlikehold en fremdriftsfil som sporer fullførte steg
Commit arbeid ofte slik at påfølgende økter kan fortsette
Bruk strukturerte oppgavelister, ikke friforms-notater

På denne måten, hvis en agent-økt krasjer eller går tom for kontekst, kan neste økt fortsette der den forrige slapp.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Reelle resultater

OpenAI Codex-teamet

3 utviklere produserte en kodebase på en million linjer med null manuelt skrevet kode over 5 måneder. De snittet på 3,5 mergede PR-er per utvikler per dag — en gjennomstrømming som er umulig uten en moden harness.

Harnessen deres inkluderte: strenge commit-konvensjoner, automatisert testing på hver PR, og agent-bevisste CI/CD-pipelines.

Stripes "Minions"

Stripes interne system produserer over 1 000 mergede PR-er per uke ved hjelp av AI-agenter. Harnessen deres inkluderer:

Tydelig avgrensede oppgavedefinisjoner
Obligatorisk kodegjennomgang av mennesker
Automatisert regresjonstesting
Automatisering av rollback

Anthropics to-agent-arkitektur

Anthropic publiserte sin tilnærming til effektive harnesser for langvarige agenter:

Strukturerte funksjonslister som format for overlevering mellom agenter
Git-basert fremdriftssporing slik at agenter kan gjenoppta etter avbrudd
Eksplisitte utgangskriterier slik at agenter vet når de skal stoppe

Hvordan begynne å bygge din Harness

Steg 1: Opprett din kontekstfil

Legg til en CLAUDE.md (eller AGENTS.md) i prosjektroten din:

markdown

# Project: [Ditt prosjekt]

## Stack
[Rammeverk, språk, database, hosting]

## Architecture
[Katalogstruktur med korte beskrivelser]

## Rules
[5-10 ufravikelige regler agenten må følge]

## Common Tasks
[Hvordan kjøre tester, bygge, deploye]

Steg 2: Legg til strukturelle begrensninger

bash

# Eksempel: ESLint-regel som forhindrer direkte DB-importer i komponenter
# .eslintrc — no-restricted-imports rule

Sett opp pre-commit hooks som håndhever reglene dine automatisk.

Steg 3: Bygg verifiseringsløkker

Sørg for at agenten din kan:

Kjøre tester (npm test, pytest, osv.)

Sjekke typer (tsc --noEmit, mypy)

Linte (eslint ., ruff check)

Koble disse inn i agentens arbeidsflyt slik at de kjører etter hver endring.

Steg 4: Avgrens agent-økter

Ikke gi en agent hele backloggen din. I stedet:

Én funksjon per økt
Én feilretting per økt
Tydelige akseptansekriterier for hver oppgave

Steg 5: Iterer på harnessen

Hver gang en agent gjør en feil:

Identifiser rotårsaken
Legg til en regel, begrensning eller hook som forhindrer det
Test rettelsen

Over tid blir harnessen din bedre og agentene dine mer pålitelige — uten å oppgradere modellen.

Harness Engineering vs. Prompt Engineering

Prompt Engineering	Harness Engineering
Fokus	Hva du sier til modellen	Hva du bygger rundt modellen
Holdbarhet	Skjør, modellavhengig	Robust, modellagnostisk
Akkumulering	Forbedres ikke over tid	Blir bedre for hver iterasjon
Omfang	Enkeltinteraksjon	Hele arbeidsflyten
Ferdighet	Skriving	Systemteknikk

Prompt engineering er fortsatt nyttig, men det er en liten del av det store bildet. Harness engineering er multiplikatoren.

Den nye rollen: Harness-utvikleren

Utvikling deles nå i to:

Miljøbygging — skape struktur, verktøy, begrensninger og tilbakemeldingsløkker
Arbeidsledelse — planlegge, gjennomgå og orkestrere parallelle agent-økter

Utviklerne som lykkes i 2026 er ikke de som skriver mest kode selv. Det er de som bygger de beste miljøene for agenter å skrive kode i.

Ikke forveksles med: Harness.io

Hvis du søkte etter "Harness Engineering" på jakt etter DevOps-plattformen — Harness.io er noe helt annet. Det er en AI-drevet CI/CD-plattform verdsatt til 5,5 milliarder dollar (per desember 2025) som tilbyr kontinuerlig integrasjon, levering, feature flags, administrasjon av skykostnader og sikkerhetstesting.

Selv om Harness.io og harness engineering deler navn, løser de ulike problemer. Likevel er det en interessant overlapp: Harness.io sin AI-drevne DevOps er argumenterbart en anvendelse av harness engineering-prinsipper på deployment-pipelinen.

Konklusjon

Modellen er motoren. Harnessen er bilen. Ingen vinner et løp med bare en motor.

Hvis du bruker AI-kodeagenter i 2026 og ikke investerer i harnessen din, lar du mesteparten av verdien ligge igjen på bordet. Start med en kontekstfil, legg til begrensninger, bygg verifiseringsløkker, og iterer hver gang noe går galt.

Teamene som leverer raskest bruker ikke bedre modeller. De bruker bedre harnesser.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Tilbake til bloggen

26. mars 2026·Y Build Team

Harness Engineering: Bygg systemer rundt AI-agenter (2026)

Harness engineering er hvordan toppteam gjør AI-kodeagenter pålitelige. Lær formelen Agent = Modell + Harness, kjernekomponenter og reelle resultater fra OpenAI, Stripe og Anthropic.

Harness EngineeringAI-agenterKodeagenterClaude CodeCodexDevOpsProgramvareutvikling2026

TL;DR

Konsept	Oppsummering
Formel	Agent = Modell + Harness
Hva er en harness?	Alt rundt AI-modellen: kontekst, begrensninger, verktøy, verifiseringsløkker
Viktig innsikt	LangChain forbedret agent-nøyaktighet fra 52,8 % → 66,5 % ved kun å endre harness, ikke modellen
Hvem bruker det	OpenAI (Codex), Stripe (1 000+ PR-er/uke), Anthropic, Vercel
Kjernekomponenter	Kontekstutvikling, arkitektoniske begrensninger, verktøy/MCP, under-agenter, hooks, selv-verifisering

Hva er Harness Engineering?

Harness engineering er disiplinen med å bygge systemer, verktøy, begrensninger og tilbakemeldingsløkker rundt AI-kodeagenter for å gjøre dem pålitelige og produktive.

Begrepet ble skapt av Mitchell Hashimoto (medgrunnlegger av HashiCorp) og fikk stor oppmerksomhet da OpenAI publiserte sin Codex-artikkel om emnet tidlig i 2026.

Kjerneideen er enkel:

Agent = Modell + Harness

Modellen gir intelligens. Harnessen gjør denne intelligensen nyttig. En bedre harness betyr ofte mer enn en bedre modell.

Hvorfor det betyr noe nå

I 2025 tok alle team i bruk AI-kodeagenter. I 2026 er vinnerteamene de som har utviklet agent-miljøene sine — ikke bare de som valgte den beste modellen.

Mitchell Hashimotos ledende prinsipp:

"Hver gang du oppdager at en agent gjør en feil, tar du deg tid til å utvikle en løsning slik at agenten aldri gjør den feilen igjen."

Dette er ikke prompt engineering. Det er systemutvikling for AI.

Beviset: Harness > Modell

Endringene inkluderte:

Bedre kontekstfiler (AGENTS.md)

Strukturerte begrensninger for output

Selv-verifiseringsløkker

Verktøyoptimalisering

Dette bekrefter det praktikere har sagt: Taket er ikke modellen. Det er det du plasserer rundt den.

De 7 komponentene i en Harness

1. Kontekstutvikling (Context Engineering)

Kontekstutvikling er fundamentet. Dette er her du gir agenten et kart over kildekoden, konvensjonene dine og begrensningene dine.

I praksis:

CLAUDE.md / AGENTS.md-filer i roten av repoet
Katalogkart og arkitektoversikter
Regler for kodestil og navngivingskonvensjoner

Viktig regel: Hold kontekstfiler under 60 linjer. Agenter mister fokus med lange dokumenter — gi dem et kart, ikke en manual på 1 000 sider.

markdown

# CLAUDE.md eksempel
## Architecture
- src/app/ — Next.js app router pages
- src/lib/ — shared utilities and API clients
- src/components/ — React components (co-located styles)

## Rules
- Use server components by default
- Never import from node_modules directly in components
- All API calls go through src/lib/api.ts

2. Arkitektoniske begrensninger

I stedet for å håpe at agenten velger riktig arkitektur, bør du tvinge den fram.

Strenge lagdelte arkitekturer validert av lintere
Strukturelle tester som feiler hvis mønstre brytes
Importrestriksjoner via ESLint-regler eller egne skript

Ideen: Begrens løsningsrommet i stedet for å utvide det. Færre gyldige alternativer betyr færre feil svar.

3. Verktøy & MCP-servere

Agenter trenger verktøy for å være effektive. De beste harnessene eksponerer interne verktøy via:

CLI-wrappere — foretrekk kjente CLI-er (git, docker, npm) fremfor spesiallagde verktøy
MCP (Model Context Protocol)-servere — la agenter kalle dine interne API-er, databaser og tjenester
Filsystemtilgang — avgrenset til spesifikke kataloger for å forhindre utilsiktet skade

Proff-tips: Foretrekk veldokumenterte standardverktøy. En agent kan bruke git perfekt fordi den har enorme mengder treningsdata på det. En tilpasset CLI uten dokumentasjon vil forvirre den.

4. Under-agenter & kontekst-brannmurer

Langvarige agent-økter akkumulerer kontekst som til slutt svekker ytelsen — dette kalles kontekstforfall (context rot).

Løsningen: Under-agenter med kontekst-brannmurer.

Del komplekse oppgaver inn i diskrete deloppgaver
Hver deloppgave kjører i sin egen økt med en frisk kontekst
Send kun strukturerte resultater mellom agenter, ikke hele samtalen

Anthropics publiserte arkitektur bruker to agenter:

Initializer Agent — planlegger arbeidet, lager en funksjonsliste
Coding Agent — utfører hver funksjon i isolasjon

5. Hooks & Back-Pressure

Automatiserte tilbakemeldingsløkker som fanger opp feil før de eskalerer:

Pre-commit hooks — typesjekking, linting, formatering
Test-kjørere — agenter bør kjøre tester etter hver endring
Byggeverifisering — feil raskt ved ødelagte bygg (builds)

Kritisk designregel: Vis feil tydelig, men aldri dump detaljert suksess-output i agentens kontekst. Suksess bør være stille. Feil bør være høylytte.

6. Selv-verifiseringsløkker

Tving agenter til å verifisere sitt eget arbeid før de markerer oppgaver som fullførte:

Kjør testsuiten etter endringer
Sjekk at bygget passerer
Verifiser at output samsvarer med spesifikasjonen
Ta et skjermbilde og sammenlign (for UI-arbeid)

Dette er forskjellen på en agent som "tror den er ferdig" og en som faktisk er det.

7. Dokumentasjon av fremdrift

For langvarige oppgaver (30+ minutter):

Vedlikehold en fremdriftsfil som sporer fullførte steg
Commit arbeid ofte slik at påfølgende økter kan fortsette
Bruk strukturerte oppgavelister, ikke friforms-notater

På denne måten, hvis en agent-økt krasjer eller går tom for kontekst, kan neste økt fortsette der den forrige slapp.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Reelle resultater

OpenAI Codex-teamet

Harnessen deres inkluderte: strenge commit-konvensjoner, automatisert testing på hver PR, og agent-bevisste CI/CD-pipelines.

Stripes "Minions"

Stripes interne system produserer over 1 000 mergede PR-er per uke ved hjelp av AI-agenter. Harnessen deres inkluderer:

Tydelig avgrensede oppgavedefinisjoner
Obligatorisk kodegjennomgang av mennesker
Automatisert regresjonstesting
Automatisering av rollback

Anthropics to-agent-arkitektur

Anthropic publiserte sin tilnærming til effektive harnesser for langvarige agenter:

Strukturerte funksjonslister som format for overlevering mellom agenter
Git-basert fremdriftssporing slik at agenter kan gjenoppta etter avbrudd
Eksplisitte utgangskriterier slik at agenter vet når de skal stoppe

Hvordan begynne å bygge din Harness

Steg 1: Opprett din kontekstfil

Legg til en CLAUDE.md (eller AGENTS.md) i prosjektroten din:

markdown

# Project: [Ditt prosjekt]

## Stack
[Rammeverk, språk, database, hosting]

## Architecture
[Katalogstruktur med korte beskrivelser]

## Rules
[5-10 ufravikelige regler agenten må følge]

## Common Tasks
[Hvordan kjøre tester, bygge, deploye]

Steg 2: Legg til strukturelle begrensninger

bash

# Eksempel: ESLint-regel som forhindrer direkte DB-importer i komponenter
# .eslintrc — no-restricted-imports rule

Sett opp pre-commit hooks som håndhever reglene dine automatisk.

Steg 3: Bygg verifiseringsløkker

Sørg for at agenten din kan:

Kjøre tester (npm test, pytest, osv.)

Sjekke typer (tsc --noEmit, mypy)

Linte (eslint ., ruff check)

Koble disse inn i agentens arbeidsflyt slik at de kjører etter hver endring.

Steg 4: Avgrens agent-økter

Ikke gi en agent hele backloggen din. I stedet:

Én funksjon per økt
Én feilretting per økt
Tydelige akseptansekriterier for hver oppgave

Steg 5: Iterer på harnessen

Hver gang en agent gjør en feil:

Identifiser rotårsaken
Legg til en regel, begrensning eller hook som forhindrer det
Test rettelsen

Over tid blir harnessen din bedre og agentene dine mer pålitelige — uten å oppgradere modellen.

Harness Engineering vs. Prompt Engineering

Prompt Engineering	Harness Engineering
Fokus	Hva du sier til modellen	Hva du bygger rundt modellen
Holdbarhet	Skjør, modellavhengig	Robust, modellagnostisk
Akkumulering	Forbedres ikke over tid	Blir bedre for hver iterasjon
Omfang	Enkeltinteraksjon	Hele arbeidsflyten
Ferdighet	Skriving	Systemteknikk

Prompt engineering er fortsatt nyttig, men det er en liten del av det store bildet. Harness engineering er multiplikatoren.

Den nye rollen: Harness-utvikleren

Utvikling deles nå i to:

Miljøbygging — skape struktur, verktøy, begrensninger og tilbakemeldingsløkker
Arbeidsledelse — planlegge, gjennomgå og orkestrere parallelle agent-økter

Utviklerne som lykkes i 2026 er ikke de som skriver mest kode selv. Det er de som bygger de beste miljøene for agenter å skrive kode i.

Ikke forveksles med: Harness.io

Konklusjon

Modellen er motoren. Harnessen er bilen. Ingen vinner et løp med bare en motor.

Teamene som leverer raskest bruker ikke bedre modeller. De bruker bedre harnesser.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.