26. března 2026·Y Build Team

Harness Engineering: Budování systémů kolem AI agentů (2026)

Harness engineering je způsob, jakým špičkové týmy zajišťují spolehlivost AI kódovacích agentů. Naučte se formuli Agent = Model + Harness, hlavní komponenty a reálné výsledky od OpenAI, Stripe a Anthropic.

Harness EngineeringAI agentiKódovací agentiClaude CodeCodexDevOpsSoftwarové inženýrství2026

TL;DR

Koncept	Shrnutí
Vzorec	Agent = Model + Harness
Co je harness?	Vše kolem AI modelu: kontext, omezení, nástroje, verifikační smyčky
Klíčový poznatek	LangChain zvýšil přesnost agenta z 52,8 % na 66,5 % pouze změnou harnessu, nikoli modelu
Kdo to používá	OpenAI (Codex), Stripe (1 000+ PRs/týdně), Anthropic, Vercel
Hlavní komponenty	Context engineering, architektonická omezení, nástroje/MCP, sub-agenti, hooks, vlastní verifikace

Co je Harness Engineering?

Harness engineering je disciplína zaměřená na budování systémů, nástrojů, omezení a zpětnovazebních smyček kolem AI kódovacích agentů, aby byli spolehliví a produktivní.

Termín vytvořil Mitchell Hashimoto (spoluzakladatel HashiCorp) a do širšího povědomí se dostal, když OpenAI publikovala svůj článek o Codexu na toto téma začátkem roku 2026.

Hlavní myšlenka je jednoduchá:

Agent = Model + Harness

Model poskytuje inteligenci. Harness činí tuto inteligenci užitečnou. Lepší harness je často důležitější než lepší model.

Proč na tom teď záleží

V roce 2025 přijal AI kódovací agenty každý tým. V roce 2026 jsou vítěznými týmy ty, které navrhly prostředí pro své agenty — nikoli ty, které si jen vybraly nejlepší model.

Hlavní zásada Mitchella Hashimota:

„Kdykoli zjistíte, že agent udělal chybu, věnujte čas inženýrskému řešení, aby agent tuto chybu už nikdy neopakoval.“

Nejedná se o prompt engineering. Je to systémové inženýrství pro AI.

Důkaz: Harness > Model

LangChain provedl kontrolovaný experiment na Terminal Bench 2.0. Bez změny podkladového modelu zlepšili přesnost svého kódovacího agenta z 52,8 % na 66,5 % — což je 26% zlepšení — pouze vylepšením harnessu.

Změny zahrnovaly:

Lepší kontextové soubory (AGENTS.md)

Omezení strukturovaného výstupu

Smyčky vlastní verifikace (self-verification loops)

Optimalizace nástrojů

To potvrzuje to, co praktici říkají už dlouho: stropem není model. Je to to, co postavíte kolem něj.

7 komponent harnessu

1. Context Engineering

Context engineering je základem. Zde dáváte agentovi mapu vaší codebase, vašich konvencí a vašich omezení.

V praxi:

Soubory CLAUDE.md / AGENTS.md v kořenovém adresáři repozitáře
Mapy adresářů a přehledy architektury
Pravidla stylu kódování a konvence pojmenování

Klíčové pravidlo: Udržujte kontextové soubory pod 60 řádky. Agenti ztrácejí pozornost u dlouhých dokumentů — dejte jim mapu, ne tisícistránkový manuál.

markdown

# Příklad CLAUDE.md
## Architektura
- src/app/ — stránky Next.js app routeru
- src/lib/ — sdílené utility a API klienti
- src/components/ — React komponenty (koexistující styly)

## Pravidla
- Výchozí nastavení: server components
- Nikdy neimportovat přímo z node_modules v komponentách
- Všechna API volání jdou přes src/lib/api.ts

2. Architektonická omezení (Architectural Constraints)

Místo doufání, že si agent vybere správnou architekturu, ji vynuťte.

Striktní vrstvené architektury validované lintery
Strukturální testy, které selžou při porušení vzorů
Omezení importů pomocí pravidel ESLint nebo vlastních skriptů

Myšlenka: omezit prostor řešení, nikoli jej rozšiřovat. Méně platných možností znamená méně špatných odpovědí.

3. Nástroje & MCP servery

Agenti potřebují nástroje, aby byli efektivní. Nejlepší harnessy zpřístupňují interní nástroje prostřednictvím:

CLI wrappery — preferujte známá CLI (git, docker, npm) před vlastními nástroji
MCP (Model Context Protocol) servery — umožněte agentům volat vaše interní API, databáze a služby
Přístup k souborovému systému — omezený na konkrétní adresáře, aby se zabránilo nechtěným škodám

Pro tip: Preferujte dobře zdokumentované standardní nástroje. Agent umí používat git perfektně, protože na něm má masivní tréninková data. Vlastní CLI bez dokumentace ho zmate.

4. Sub-agenti & kontextové firewally

Dlouho běžící relace agentů hromadí kontext, který časem degraduje výkon — to se nazývá degradace kontextu (context rot).

Řešení: sub-agenti s kontextovými firewally.

Rozdělte složité úkoly na diskrétní sub-úkoly
Každý sub-úkol běží ve vlastní relaci s čerstvým kontextem
Mezi agenty předávejte pouze strukturované výsledky, nikoli surovou konverzaci

Publikovaná architektura společnosti Anthropic používá dva agenty:

Initializer Agent — plánuje práci, vytváří seznam funkcí (feature list)
Coding Agent — provádí každou funkci izolovaně

5. Hooks & Back-Pressure

Automatizované zpětnovazební smyčky, které zachytí chyby dříve, než se nakumulují:

Pre-commit hooks — kontrola typů, linting, formátování
Test runners — agenti by měli spouštět testy po každé změně
Build verification — rychlé selhání u nefunkčních sestavení

Kritické pravidlo návrhu: Zobrazujte selhání jasně, ale nikdy nevkládejte upovídaný výstup o úspěchu do kontextu agenta. Úspěch by měl být tichý. Selhání by měla být hlasitá.

6. Smyčky vlastní verifikace (Self-Verification Loops)

Nenuťte agenty k verifikaci vlastní práce před označením úkolu za dokončený:

Spuštění sady testů po změnách
Kontrola, zda sestavení (build) projde
Ověření, zda výstup odpovídá specifikaci
Pořízení screenshotu a porovnání (pro práci na UI)

To je rozdíl mezi agentem, který si „myslí, že je hotov“, a tím, který skutečně je.

7. Dokumentace postupu

Pro dlouhotrvající úkoly (30+ minut):

Udržujte soubor s postupem (progress file), který sleduje dokončené kroky
Commitujte práci často, aby následné relace mohly pokračovat
Používejte strukturované seznamy úkolů, nikoli volné poznámky

Tímto způsobem, pokud relace agenta spadne nebo dojde k vyčerpání kontextu, další relace naváže tam, kde předchozí skončila.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Reálné výsledky

OpenAI Codex Team

3 inženýři vyprodukovali milion řádků kódu s nulovým množstvím ručně psaného kódu během 5 měsíců. V průměru dosáhli 3,5 sloučených PR na inženýra za den — propustnost, která je bez vyspělého harnessu nemožná.

Jejich harness zahrnoval: přísné konvence commitů, automatizované testování u každého PR a CI/CD pipelines uzpůsobené pro agenty.

Stripe „Minions“

Interní systém společnosti Stripe produkuje více než 1 000 sloučených PR týdně pomocí AI agentů. Jejich harness obsahuje:

Úzce vymezené definice úkolů
Povinné code review lidmi
Automatizované regresní testování
Automatizaci rollbacků

Architektura dvou agentů Anthropic

Anthropic zveřejnil svůj přístup k efektivním harnessům pro dlouho běžící agenty:

Strukturované seznamy funkcí jako formát pro předávání práce mezi agenty
Sledování postupu založené na Gitu, aby agenti mohli po přerušení pokračovat
Explicitní kritéria ukončení, aby agenti věděli, kdy přestat

Jak začít stavět svůj harness

Krok 1: Vytvořte kontextový soubor

Přidejte CLAUDE.md (nebo AGENTS.md) do kořenového adresáře projektu:

markdown

# Projekt: [Váš projekt]

## Stack
[Framework, jazyk, databáze, hosting]

## Architektura
[Struktura adresářů s jednořádkovými popisy]

## Pravidla
[5-10 striktních pravidel, která agent musí dodržovat]

## Běžné úkoly
[Jak spouštět testy, sestavení, nasazení]

Krok 2: Přidejte architektonická omezení

bash

# Příklad: Pravidlo ESLint zabraňující přímým importům DB v komponentách
# .eslintrc — pravidlo no-restricted-imports

Nastavte pre-commit hooks, které automaticky vynucují vaše pravidla.

Krok 3: Vybudujte verifikační smyčky

Ujistěte se, že váš agent může:

Spouštět testy (npm test, pytest atd.)

Kontrolovat typy (tsc --noEmit, mypy)

Provádět linting (eslint ., ruff check)

Zapojte je do workflow agenta tak, aby se spustily po každé změně.

Krok 4: Vymezte rozsah relací agentů

Nedávejte agentovi celý svůj backlog. Místo toho:

Jedna funkce na relaci
Jedna oprava chyby na relaci
Jasná akceptační kritéria pro každý úkol

Krok 5: Iterujte na harnessu

Pokaždé, když agent udělá chybu:

Identifikujte hlavní příčinu
Přidejte pravidlo, omezení nebo hook, který jí zabrání
Otestujte opravu

Postupem času se váš harness zlepšuje a vaši agenti se stávají spolehlivějšími — bez nutnosti upgradovat model.

Harness Engineering vs. Prompt Engineering

Prompt Engineering	Harness Engineering
Zaměření	Co říkáte modelu	Co stavíte kolem modelu
Odolnost	Křehké, závislé na modelu	Robustní, nezávislé na modelu
Kumulativní efekt	Časem se nezlepšuje	Lepší s každou iterací
Rozsah	Jedna interakce	Celý workflow
Typ dovednosti	Psaní	Systémové inženýrství

Prompt engineering je stále užitečný, ale je to jen malá část skládačky. Harness engineering je násobitel.

Nová role: Harness Engineer

Inženýrství se dělí na dvě poloviny:

Budování prostředí — vytváření struktury, nástrojů, omezení a zpětnovazebních smyček
Správa práce — plánování, revize a orchestrace paralelních relací agentů

Inženýři, kterým se bude v roce 2026 dařit, nebudou ti, kteří napíší nejvíce kódu. Budou to ti, kteří vybudují nejlepší prostředí pro agenty, aby v něm kód psali oni.

Nezaměňovat s: Harness.io

Pokud jste hledali „Harness Engineering“ a očekávali platformu DevOps — Harness.io je zcela jiná věc. Je to CI/CD platforma poháněná AI s hodnotou 5,5 miliardy dolarů (k prosinci 2025), která nabízí kontinuální integraci, doručování, feature flags, správu nákladů na cloud a testování bezpečnosti.

Ačkoli Harness.io a harness engineering sdílejí jméno, řeší odlišné problémy. Existuje však zajímavý průnik: DevOps s podporou AI od Harness.io je v podstatě aplikací principů harness engineeringu na pipeline nasazení.

Sečteno a podtrženo

Model je motor. Harness je auto. Nikdo nevyhraje závod jen s motorem.

Pokud v roce 2026 používáte AI kódovací agenty a neinvestujete do svého harnessu, necháváte většinu hodnoty nevyužitou. Začněte s kontextovým souborem, přidejte omezení, vybudujte verifikační smyčky a iterujte pokaždé, když se něco rozbije.

Týmy, které doručují nejrychleji, nepoužívají lepší modely. Používají lepší harnessy.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Zpět na blog

26. března 2026·Y Build Team

Harness Engineering: Budování systémů kolem AI agentů (2026)

Harness EngineeringAI agentiKódovací agentiClaude CodeCodexDevOpsSoftwarové inženýrství2026

TL;DR

Koncept	Shrnutí
Vzorec	Agent = Model + Harness
Co je harness?	Vše kolem AI modelu: kontext, omezení, nástroje, verifikační smyčky
Klíčový poznatek	LangChain zvýšil přesnost agenta z 52,8 % na 66,5 % pouze změnou harnessu, nikoli modelu
Kdo to používá	OpenAI (Codex), Stripe (1 000+ PRs/týdně), Anthropic, Vercel
Hlavní komponenty	Context engineering, architektonická omezení, nástroje/MCP, sub-agenti, hooks, vlastní verifikace

Co je Harness Engineering?

Harness engineering je disciplína zaměřená na budování systémů, nástrojů, omezení a zpětnovazebních smyček kolem AI kódovacích agentů, aby byli spolehliví a produktivní.

Termín vytvořil Mitchell Hashimoto (spoluzakladatel HashiCorp) a do širšího povědomí se dostal, když OpenAI publikovala svůj článek o Codexu na toto téma začátkem roku 2026.

Hlavní myšlenka je jednoduchá:

Agent = Model + Harness

Model poskytuje inteligenci. Harness činí tuto inteligenci užitečnou. Lepší harness je často důležitější než lepší model.

Proč na tom teď záleží

V roce 2025 přijal AI kódovací agenty každý tým. V roce 2026 jsou vítěznými týmy ty, které navrhly prostředí pro své agenty — nikoli ty, které si jen vybraly nejlepší model.

Hlavní zásada Mitchella Hashimota:

„Kdykoli zjistíte, že agent udělal chybu, věnujte čas inženýrskému řešení, aby agent tuto chybu už nikdy neopakoval.“

Nejedná se o prompt engineering. Je to systémové inženýrství pro AI.

Důkaz: Harness > Model

Změny zahrnovaly:

Lepší kontextové soubory (AGENTS.md)

Omezení strukturovaného výstupu

Smyčky vlastní verifikace (self-verification loops)

Optimalizace nástrojů

To potvrzuje to, co praktici říkají už dlouho: stropem není model. Je to to, co postavíte kolem něj.

7 komponent harnessu

1. Context Engineering

Context engineering je základem. Zde dáváte agentovi mapu vaší codebase, vašich konvencí a vašich omezení.

V praxi:

Soubory CLAUDE.md / AGENTS.md v kořenovém adresáři repozitáře
Mapy adresářů a přehledy architektury
Pravidla stylu kódování a konvence pojmenování

Klíčové pravidlo: Udržujte kontextové soubory pod 60 řádky. Agenti ztrácejí pozornost u dlouhých dokumentů — dejte jim mapu, ne tisícistránkový manuál.

markdown

# Příklad CLAUDE.md
## Architektura
- src/app/ — stránky Next.js app routeru
- src/lib/ — sdílené utility a API klienti
- src/components/ — React komponenty (koexistující styly)

## Pravidla
- Výchozí nastavení: server components
- Nikdy neimportovat přímo z node_modules v komponentách
- Všechna API volání jdou přes src/lib/api.ts

2. Architektonická omezení (Architectural Constraints)

Místo doufání, že si agent vybere správnou architekturu, ji vynuťte.

Striktní vrstvené architektury validované lintery
Strukturální testy, které selžou při porušení vzorů
Omezení importů pomocí pravidel ESLint nebo vlastních skriptů

Myšlenka: omezit prostor řešení, nikoli jej rozšiřovat. Méně platných možností znamená méně špatných odpovědí.

3. Nástroje & MCP servery

Agenti potřebují nástroje, aby byli efektivní. Nejlepší harnessy zpřístupňují interní nástroje prostřednictvím:

CLI wrappery — preferujte známá CLI (git, docker, npm) před vlastními nástroji
MCP (Model Context Protocol) servery — umožněte agentům volat vaše interní API, databáze a služby
Přístup k souborovému systému — omezený na konkrétní adresáře, aby se zabránilo nechtěným škodám

Pro tip: Preferujte dobře zdokumentované standardní nástroje. Agent umí používat git perfektně, protože na něm má masivní tréninková data. Vlastní CLI bez dokumentace ho zmate.

4. Sub-agenti & kontextové firewally

Dlouho běžící relace agentů hromadí kontext, který časem degraduje výkon — to se nazývá degradace kontextu (context rot).

Řešení: sub-agenti s kontextovými firewally.

Rozdělte složité úkoly na diskrétní sub-úkoly
Každý sub-úkol běží ve vlastní relaci s čerstvým kontextem
Mezi agenty předávejte pouze strukturované výsledky, nikoli surovou konverzaci

Publikovaná architektura společnosti Anthropic používá dva agenty:

Initializer Agent — plánuje práci, vytváří seznam funkcí (feature list)
Coding Agent — provádí každou funkci izolovaně

5. Hooks & Back-Pressure

Automatizované zpětnovazební smyčky, které zachytí chyby dříve, než se nakumulují:

Pre-commit hooks — kontrola typů, linting, formátování
Test runners — agenti by měli spouštět testy po každé změně
Build verification — rychlé selhání u nefunkčních sestavení

6. Smyčky vlastní verifikace (Self-Verification Loops)

Nenuťte agenty k verifikaci vlastní práce před označením úkolu za dokončený:

Spuštění sady testů po změnách
Kontrola, zda sestavení (build) projde
Ověření, zda výstup odpovídá specifikaci
Pořízení screenshotu a porovnání (pro práci na UI)

To je rozdíl mezi agentem, který si „myslí, že je hotov“, a tím, který skutečně je.

7. Dokumentace postupu

Pro dlouhotrvající úkoly (30+ minut):

Udržujte soubor s postupem (progress file), který sleduje dokončené kroky
Commitujte práci často, aby následné relace mohly pokračovat
Používejte strukturované seznamy úkolů, nikoli volné poznámky

Tímto způsobem, pokud relace agenta spadne nebo dojde k vyčerpání kontextu, další relace naváže tam, kde předchozí skončila.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Reálné výsledky

OpenAI Codex Team

Jejich harness zahrnoval: přísné konvence commitů, automatizované testování u každého PR a CI/CD pipelines uzpůsobené pro agenty.

Stripe „Minions“

Interní systém společnosti Stripe produkuje více než 1 000 sloučených PR týdně pomocí AI agentů. Jejich harness obsahuje:

Úzce vymezené definice úkolů
Povinné code review lidmi
Automatizované regresní testování
Automatizaci rollbacků

Architektura dvou agentů Anthropic

Anthropic zveřejnil svůj přístup k efektivním harnessům pro dlouho běžící agenty:

Strukturované seznamy funkcí jako formát pro předávání práce mezi agenty
Sledování postupu založené na Gitu, aby agenti mohli po přerušení pokračovat
Explicitní kritéria ukončení, aby agenti věděli, kdy přestat

Jak začít stavět svůj harness

Krok 1: Vytvořte kontextový soubor

Přidejte CLAUDE.md (nebo AGENTS.md) do kořenového adresáře projektu:

markdown

# Projekt: [Váš projekt]

## Stack
[Framework, jazyk, databáze, hosting]

## Architektura
[Struktura adresářů s jednořádkovými popisy]

## Pravidla
[5-10 striktních pravidel, která agent musí dodržovat]

## Běžné úkoly
[Jak spouštět testy, sestavení, nasazení]

Krok 2: Přidejte architektonická omezení

bash

# Příklad: Pravidlo ESLint zabraňující přímým importům DB v komponentách
# .eslintrc — pravidlo no-restricted-imports

Nastavte pre-commit hooks, které automaticky vynucují vaše pravidla.

Krok 3: Vybudujte verifikační smyčky

Ujistěte se, že váš agent může:

Spouštět testy (npm test, pytest atd.)

Kontrolovat typy (tsc --noEmit, mypy)

Provádět linting (eslint ., ruff check)

Zapojte je do workflow agenta tak, aby se spustily po každé změně.

Krok 4: Vymezte rozsah relací agentů

Nedávejte agentovi celý svůj backlog. Místo toho:

Jedna funkce na relaci
Jedna oprava chyby na relaci
Jasná akceptační kritéria pro každý úkol

Krok 5: Iterujte na harnessu

Pokaždé, když agent udělá chybu:

Identifikujte hlavní příčinu
Přidejte pravidlo, omezení nebo hook, který jí zabrání
Otestujte opravu

Postupem času se váš harness zlepšuje a vaši agenti se stávají spolehlivějšími — bez nutnosti upgradovat model.

Harness Engineering vs. Prompt Engineering

Prompt Engineering	Harness Engineering
Zaměření	Co říkáte modelu	Co stavíte kolem modelu
Odolnost	Křehké, závislé na modelu	Robustní, nezávislé na modelu
Kumulativní efekt	Časem se nezlepšuje	Lepší s každou iterací
Rozsah	Jedna interakce	Celý workflow
Typ dovednosti	Psaní	Systémové inženýrství

Prompt engineering je stále užitečný, ale je to jen malá část skládačky. Harness engineering je násobitel.

Nová role: Harness Engineer

Inženýrství se dělí na dvě poloviny:

Budování prostředí — vytváření struktury, nástrojů, omezení a zpětnovazebních smyček
Správa práce — plánování, revize a orchestrace paralelních relací agentů

Inženýři, kterým se bude v roce 2026 dařit, nebudou ti, kteří napíší nejvíce kódu. Budou to ti, kteří vybudují nejlepší prostředí pro agenty, aby v něm kód psali oni.

Nezaměňovat s: Harness.io

Sečteno a podtrženo

Model je motor. Harness je auto. Nikdo nevyhraje závod jen s motorem.

Týmy, které doručují nejrychleji, nepoužívají lepší modely. Používají lepší harnessy.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.