Harness Engineering: Bygg system runt AI-agenter (2026)

TL;DR

Koncept	Sammanfattning
Formel	Agent = Modell + Harness
Vad är en harness?	Allt runt AI-modellen: kontext, begränsningar, verktyg, verifieringsloopar
Viktig insikt	LangChain förbättrade agentens noggrannhet från 52,8 % → 66,5 % genom att bara ändra dess harness, inte modellen
Vilka använder det	OpenAI (Codex), Stripe (1 000+ PR:ar/vecka), Anthropic, Vercel
Kärnkomponenter	Context engineering, arkitektoniska begränsningar, verktyg/MCP, sub-agenter, hooks, självverifiering

Vad är Harness Engineering?

Harness engineering är disciplinen att bygga system, verktyg, begränsningar och feedback-loopar runt AI-kodningsagenter för att göra dem pålitliga och produktiva.

Termen myntades av Mitchell Hashimoto (medgrundare av HashiCorp) och fick stor uppmärksamhet när OpenAI publicerade sin Codex-artikel i ämnet i början av 2026.

Kärnan i idén är enkel:

Agent = Modell + Harness

Modellen står för intelligensen. En harness gör den intelligensen användbar. En bättre harness spelar ofta större roll än en bättre modell.

Varför det är viktigt nu

Under 2025 implementerade alla team AI-kodningsagenter. Under 2026 är vinnarna de team som konstruerade sina agentmiljöer — inte bara de som valde den bästa modellen.

Mitchell Hashimotos ledstjärna:

"Varje gång du upptäcker att en agent gör ett misstag, tar du dig tid att konstruera en lösning så att agenten aldrig gör det misstaget igen."

Det här är inte prompt engineering. Det är systemteknik (systems engineering) för AI.

Beviset: Harness > Modell

LangChain genomförde ett kontrollerat experiment på Terminal Bench 2.0. Utan att ändra den underliggande modellen förbättrade de sin kodningsagents noggrannhet från 52,8 % till 66,5 % — en förbättring med 26 % — enbart genom att förbättra dess harness.

Förändringarna inkluderade:

Bättre kontextfiler (AGENTS.md)

Strukturerade utdatabegränsningar

Självverifieringsloopar

Verktygsoptimering

Detta bekräftar vad experter har sagt: taket är inte modellen. Det är vad du placerar runt den.

De 7 komponenterna i en harness

1. Context Engineering

Context engineering är grunden. Det är här du ger agenten en karta över din kodbas, dina konventioner och dina begränsningar.

I praktiken:

CLAUDE.md / AGENTS.md-filer i din projektrot
Katalogkartor och arkitekturöversikter
Regler för kodstil och namnkonventioner

Viktig regel: Håll kontextfiler under 60 rader. Agenter tappar fokus med långa dokument — ge dem en karta, inte en manual på 1 000 sidor.

markdown

# CLAUDE.md exempel
## Arkitektur
- src/app/ — Next.js app router-sidor
- src/lib/ — delade verktyg och API-klienter
- src/components/ — React-komponenter (samlokaliserad stil)

## Regler
- Använd server components som standard
- Importera aldrig direkt från node_modules i komponenter
- Alla API-anrop går via src/lib/api.ts

2. Arkitektoniska begränsningar

Istället för att hoppas att agenten väljer rätt arkitektur, bör du tvinga fram den.

Strikta lagerarkitekturer validerade av linters
Strukturella tester som misslyckas om mönster bryts
Importrestriktioner via ESLint-regler eller anpassade skript

Idén: begränsa lösningsutrymmet snarare än att utöka det. Färre giltiga alternativ innebär färre felaktiga svar.

3. Verktyg & MCP-servrar

Agenter behöver verktyg för att vara effektiva. De bästa miljöerna exponerar interna verktyg via:

CLI-wrappers — föredra välkända CLI:er (git, docker, npm) framför specialbyggda verktyg
MCP-servrar (Model Context Protocol) — låt agenter anropa dina interna API:er, databaser och tjänster
Filsystemåtkomst — begränsad till specifika kataloger för att förhindra oavsiktliga skador

Proffstips: Föredra väldokumenterade standardverktyg. En agent kan använda git perfekt eftersom den har enorma mängder träningsdata för det. Ett anpassat CLI utan dokumentation kommer bara att förvirra den.

4. Sub-agenter & kontextbrandväggar

Långvariga agentsessioner samlar på sig kontext som till slut försämrar prestandan — detta kallas kontextröta (context rot).

Lösningen: sub-agenter med kontextbrandväggar.

Dela upp komplexa uppgifter i avgränsade deluppgifter
Varje deluppgift körs i en egen session med fräsch kontext
Skicka endast strukturerade resultat mellan agenter, inte hela konversationen

Anthropic's publicerade arkitektur använder två agenter:

Initializer Agent — planerar arbetet, skapar en funktionslista
Coding Agent — utför varje funktion isolerat

5. Hooks & Back-Pressure

Automatiserade feedback-loopar som fångar misstag innan de växer:

Pre-commit hooks — typpkontroll, linting, formatering
Test runners — agenter bör köra tester efter varje ändring
Byggverifiering — misslyckas snabbt vid trasiga byggen

Kritisk designregel: Visa fel tydligt, men dumpa aldrig utförlig framgångsdata i agentens kontext. Framgång ska vara tyst. Misslyckanden ska låta högt.

6. Självverifieringsloopar

Tvinga agenter att verifiera sitt eget arbete innan de markerar uppgifter som klara:

Kör testsviten efter ändringar
Kontrollera att bygget går igenom
Verifiera att utdatan matchar specifikationen
Ta en skärmdump och jämför (för UI-arbete)

Detta är skillnaden mellan en agent som "tror att den är klar" och en som faktiskt är det.

7. Framstegsdokumentation

För långvariga uppgifter (30+ minuter):

Underhåll en framstegsfil som spårar slutförda steg
Gör commits ofta så att efterföljande sessioner kan fortsätta
Använd strukturerade uppgiftslistor, inte lösa anteckningar

På så sätt kan nästa session ta vid där den förra slutade om en agentsession kraschar eller får slut på kontext.

Verkliga resultat

OpenAI Codex Team

3 ingenjörer producerade en kodbas på en miljon rader helt utan manuellt skriven kod under 5 månader. De snittade på 3,5 mergeade PR:ar per ingenjör och dag — en genomströmning som är omöjlig utan en mogen harness.

Deras harness inkluderade: strikta commit-konventioner, automatiserad testning på varje PR och agent-medvetna CI/CD-pipelines.

Stripes "Minions"

Stripes interna system producerar över 1 000 mergeade PR:ar per vecka med hjälp av AI-agenter. Deras harness inkluderade:

Tydligt avgränsade uppgiftsdefinitioner
Obligatorisk kodgranskning av människor
Automatiserad regressionstestning
Rollback-automation

Anthropics två-agent-arkitektur

Anthropic publicerade sin metod för effektiva harnesses för agenter som körs under lång tid:

Strukturerade funktionslistor som format för överlämning mellan agenter
Git-baserad framstegsspårning så att agenter kan återuppta arbetet efter avbrott
Tydliga avslutskriterier så att agenter vet när de ska sluta

Så börjar du bygga din harness

Steg 1: Skapa din kontextfil

Lägg till en CLAUDE.md (eller AGENTS.md) i din projektrot:

markdown

# Projekt: [Ditt projekt]

## Teknikstack
[Ramverk, språk, databas, hosting]

## Arkitektur
[Katalogstruktur med korta beskrivningar]

## Regler
[5-10 strikta regler som agenten måste följa]

## Vanliga uppgifter
[Hur man kör tester, bygger, deployar]

Steg 2: Lägg till arkitektoniska begränsningar

bash

# Exempel: ESLint-regel som förhindrar direkta DB-importer i komponenter
# .eslintrc — no-restricted-imports rule

Ställ in pre-commit hooks som upprätthåller dina regler automatiskt.

Steg 3: Bygg verifieringsloopar

Se till att din agent kan:

Köra tester (npm test, pytest, etc.)

Kontrollera typer (tsc --noEmit, mypy)

Köra linting (eslint ., ruff check)

Koppla in dessa i agentens arbetsflöde så att de körs efter varje ändring.

Steg 4: Avgränsa agentsessioner

Ge inte en agent hela din backlog. Istället:

En funktion per session
En buggfix per session
Tydliga acceptanskriterier för varje uppgift

Steg 5: Iterera på din harness

Varje gång en agent gör ett misstag:

Identifiera grundorsaken
Lägg till en regel, begränsning eller hook som förhindrar det
Testa fixen

Med tiden blir din harness bättre och dina agenter mer pålitliga — utan att du behöver uppgradera modellen.

Harness Engineering vs. Prompt Engineering

Prompt Engineering	Harness Engineering
Fokus	Vad du säger till modellen	Vad du bygger runt modellen
Hållbarhet	Bräcklig, modellberoende	Robust, modelloberoende
Ackumulerande effekt	Förbättras inte över tid	Blir bättre för varje iteration
Omfattning	Enskild interaktion	Hela arbetsflödet
Typ av kompetens	Skrivande	Systemteknik

Prompt engineering är fortfarande användbart, men det är bara en liten del av helheten. Harness engineering är multiplikatorn.

Bör inte förväxlas med: Harness.io

Om du sökte på "Harness Engineering" och letade efter DevOps-plattformen — Harness.io är något helt annat. Det är en AI-driven CI/CD-plattform värderad till 5,5 miljarder dollar (per december 2025) som erbjuder kontinuerlig integration, leverans, feature flags, hantering av molnkostnader och säkerhetstester.

Även om Harness.io och harness engineering delar namn, löser de olika problem. Det finns dock en intressant överlappning: Harness.io:s AI-drivna DevOps kan sägas vara en tillämpning av principerna för harness engineering på själva deployment-pipelinen.

Slutsats

Modellen är motorn. En harness är bilen. Ingen vinner ett lopp med bara en motor.

Om du använder AI-kodningsagenter under 2026 och inte investerar i din harness, går du miste om det mesta av värdet. Börja med en kontextfil, lägg till begränsningar, bygg verifieringsloopar och iterera varje gång något går sönder.

De team som levererar snabbast använder inte bättre modeller. De använder bättre harnesses.

De 7 komponenterna i en harness

1. Context Engineering

Context engineering är grunden. Det är här du ger agenten en karta över din kodbas, dina konventioner och dina begränsningar.

I praktiken:

CLAUDE.md / AGENTS.md-filer i din projektrot
Katalogkartor och arkitekturöversikter
Regler för kodstil och namnkonventioner

Viktig regel: Håll kontextfiler under 60 rader. Agenter tappar fokus med långa dokument — ge dem en karta, inte en manual på 1 000 sidor.

markdown

# CLAUDE.md exempel
## Arkitektur
- src/app/ — Next.js app router-sidor
- src/lib/ — delade verktyg och API-klienter
- src/components/ — React-komponenter (samlokaliserad stil)

## Regler
- Använd server components som standard
- Importera aldrig direkt från node_modules i komponenter
- Alla API-anrop går via src/lib/api.ts

2. Arkitektoniska begränsningar

Istället för att hoppas att agenten väljer rätt arkitektur, bör du tvinga fram den.

Strikta lagerarkitekturer validerade av linters
Strukturella tester som misslyckas om mönster bryts
Importrestriktioner via ESLint-regler eller anpassade skript

Idén: begränsa lösningsutrymmet snarare än att utöka det. Färre giltiga alternativ innebär färre felaktiga svar.

3. Verktyg & MCP-servrar

Agenter behöver verktyg för att vara effektiva. De bästa miljöerna exponerar interna verktyg via:

CLI-wrappers — föredra välkända CLI:er (git, docker, npm) framför specialbyggda verktyg
MCP-servrar (Model Context Protocol) — låt agenter anropa dina interna API:er, databaser och tjänster
Filsystemåtkomst — begränsad till specifika kataloger för att förhindra oavsiktliga skador

4. Sub-agenter & kontextbrandväggar

Långvariga agentsessioner samlar på sig kontext som till slut försämrar prestandan — detta kallas kontextröta (context rot).

Lösningen: sub-agenter med kontextbrandväggar.

Dela upp komplexa uppgifter i avgränsade deluppgifter
Varje deluppgift körs i en egen session med fräsch kontext
Skicka endast strukturerade resultat mellan agenter, inte hela konversationen

Anthropic's publicerade arkitektur använder två agenter:

Initializer Agent — planerar arbetet, skapar en funktionslista
Coding Agent — utför varje funktion isolerat

5. Hooks & Back-Pressure

Automatiserade feedback-loopar som fångar misstag innan de växer:

Pre-commit hooks — typpkontroll, linting, formatering
Test runners — agenter bör köra tester efter varje ändring
Byggverifiering — misslyckas snabbt vid trasiga byggen

Kritisk designregel: Visa fel tydligt, men dumpa aldrig utförlig framgångsdata i agentens kontext. Framgång ska vara tyst. Misslyckanden ska låta högt.

6. Självverifieringsloopar

Tvinga agenter att verifiera sitt eget arbete innan de markerar uppgifter som klara:

Kör testsviten efter ändringar
Kontrollera att bygget går igenom
Verifiera att utdatan matchar specifikationen
Ta en skärmdump och jämför (för UI-arbete)

Detta är skillnaden mellan en agent som "tror att den är klar" och en som faktiskt är det.

7. Framstegsdokumentation

För långvariga uppgifter (30+ minuter):

Underhåll en framstegsfil som spårar slutförda steg
Gör commits ofta så att efterföljande sessioner kan fortsätta
Använd strukturerade uppgiftslistor, inte lösa anteckningar

På så sätt kan nästa session ta vid där den förra slutade om en agentsession kraschar eller får slut på kontext.

Verkliga resultat

OpenAI Codex Team

Deras harness inkluderade: strikta commit-konventioner, automatiserad testning på varje PR och agent-medvetna CI/CD-pipelines.

Stripes "Minions"

Stripes interna system producerar över 1 000 mergeade PR:ar per vecka med hjälp av AI-agenter. Deras harness inkluderade:

Tydligt avgränsade uppgiftsdefinitioner
Obligatorisk kodgranskning av människor
Automatiserad regressionstestning
Rollback-automation

Anthropics två-agent-arkitektur

Anthropic publicerade sin metod för effektiva harnesses för agenter som körs under lång tid:

Strukturerade funktionslistor som format för överlämning mellan agenter
Git-baserad framstegsspårning så att agenter kan återuppta arbetet efter avbrott
Tydliga avslutskriterier så att agenter vet när de ska sluta

Så börjar du bygga din harness

Steg 1: Skapa din kontextfil

Lägg till en CLAUDE.md (eller AGENTS.md) i din projektrot:

markdown

# Projekt: [Ditt projekt]

## Teknikstack
[Ramverk, språk, databas, hosting]

## Arkitektur
[Katalogstruktur med korta beskrivningar]

## Regler
[5-10 strikta regler som agenten måste följa]

## Vanliga uppgifter
[Hur man kör tester, bygger, deployar]

Steg 2: Lägg till arkitektoniska begränsningar

bash

# Exempel: ESLint-regel som förhindrar direkta DB-importer i komponenter
# .eslintrc — no-restricted-imports rule

Ställ in pre-commit hooks som upprätthåller dina regler automatiskt.

Steg 3: Bygg verifieringsloopar

Se till att din agent kan:

Köra tester (npm test, pytest, etc.)

Kontrollera typer (tsc --noEmit, mypy)

Köra linting (eslint ., ruff check)

Koppla in dessa i agentens arbetsflöde så att de körs efter varje ändring.

Steg 4: Avgränsa agentsessioner

Ge inte en agent hela din backlog. Istället:

En funktion per session
En buggfix per session
Tydliga acceptanskriterier för varje uppgift

Steg 5: Iterera på din harness

Varje gång en agent gör ett misstag:

Identifiera grundorsaken
Lägg till en regel, begränsning eller hook som förhindrar det
Testa fixen

Med tiden blir din harness bättre och dina agenter mer pålitliga — utan att du behöver uppgradera modellen.

Harness Engineering vs. Prompt Engineering

Prompt Engineering	Harness Engineering
Fokus	Vad du säger till modellen	Vad du bygger runt modellen
Hållbarhet	Bräcklig, modellberoende	Robust, modelloberoende
Ackumulerande effekt	Förbättras inte över tid	Blir bättre för varje iteration
Omfattning	Enskild interaktion	Hela arbetsflödet
Typ av kompetens	Skrivande	Systemteknik

Prompt engineering är fortfarande användbart, men det är bara en liten del av helheten. Harness engineering är multiplikatorn.

Bör inte förväxlas med: Harness.io

Slutsats

Modellen är motorn. En harness är bilen. Ingen vinner ett lopp med bara en motor.

De team som levererar snabbast använder inte bättre modeller. De använder bättre harnesses.

TL;DR

Vad är Harness Engineering?

Varför det är viktigt nu

Beviset: Harness > Modell

Be first to build with AI

De 7 komponenterna i en harness

1. Context Engineering

2. Arkitektoniska begränsningar

3. Verktyg & MCP-servrar

4. Sub-agenter & kontextbrandväggar

5. Hooks & Back-Pressure

6. Självverifieringsloopar

7. Framstegsdokumentation

Verkliga resultat

OpenAI Codex Team

Stripes "Minions"

Anthropics två-agent-arkitektur

Så börjar du bygga din harness

Steg 1: Skapa din kontextfil

Steg 2: Lägg till arkitektoniska begränsningar

Steg 3: Bygg verifieringsloopar

Steg 4: Avgränsa agentsessioner

Steg 5: Iterera på din harness

Harness Engineering vs. Prompt Engineering

Bör inte förväxlas med: Harness.io

Slutsats

Be first to build with AI

TL;DR

Vad är Harness Engineering?

Varför det är viktigt nu

Beviset: Harness > Modell

Be first to build with AI

De 7 komponenterna i en harness

1. Context Engineering

2. Arkitektoniska begränsningar

3. Verktyg & MCP-servrar

4. Sub-agenter & kontextbrandväggar

5. Hooks & Back-Pressure

6. Självverifieringsloopar

7. Framstegsdokumentation

Verkliga resultat

OpenAI Codex Team

Stripes "Minions"

Anthropics två-agent-arkitektur

Så börjar du bygga din harness

Steg 1: Skapa din kontextfil

Steg 2: Lägg till arkitektoniska begränsningar

Steg 3: Bygg verifieringsloopar

Steg 4: Avgränsa agentsessioner

Steg 5: Iterera på din harness

Harness Engineering vs. Prompt Engineering

Bör inte förväxlas med: Harness.io

Slutsats

Be first to build with AI