26 marca 2026·Y Build Team

Harness Engineering: Budowanie systemów wokół agentów AI (2026)

Harness engineering to sposób, w jaki czołowe zespoły zapewniają niezawodność agentów AI do kodowania. Poznaj formułę Agent = Model + Harness, kluczowe komponenty i rzeczywiste wyniki z OpenAI, Stripe oraz Anthropic.

Harness EngineeringAgenci AIAgenci kodującyClaude CodeCodexDevOpsSoftware Engineering2026

TL;DR

Koncepcja	Podsumowanie
Formuła	Agent = Model + Harness
Czym jest harness?	Wszystko wokół modelu AI: kontekst, ograniczenia, narzędzia, pętle weryfikacyjne
Kluczowy wniosek	LangChain poprawił dokładność agenta z 52.8% → 66.5% zmieniając tylko harness, a nie model
Kto z tego korzysta	OpenAI (Codex), Stripe (ponad 1000 PR/tydzień), Anthropic, Vercel
Kluczowe komponenty	Inżynieria kontekstu, ograniczenia architektoniczne, narzędzia/MCP, sub-agenci, hooki, samoweryfikacja

Czym jest Harness Engineering?

Harness engineering to dyscyplina budowania systemów, narzędzi, ograniczeń i pętli zwrotnych wokół agentów AI do kodowania, aby uczynić ich niezawodnymi i produktywnymi.

Termin ten został ukuty przez Mitchella Hashimoto (współzałożyciela HashiCorp) i zyskał powszechną uwagę, gdy OpenAI opublikowało swój artykuł o Codex na ten temat na początku 2026 roku.

Główna idea jest prosta:

Agent = Model + Harness

Model dostarcza inteligencję. Harness sprawia, że ta inteligencja staje się użyteczna. Lepszy harness często ma większe znaczenie niż lepszy model.

Dlaczego to ma teraz znaczenie

W 2025 roku każdy zespół wdrożył agentów AI do kodowania. W 2026 roku wygrywają te zespoły, które zaprojektowały środowiska dla swoich agentów (engineered their agent environments) — a nie tylko wybrały najlepszy model.

Zasada przewodnia Mitchella Hashimoto:

„Za każdym razem, gdy zauważysz, że agent popełnia błąd, poświęć czas na zaprojektowanie rozwiązania, dzięki któremu agent nigdy więcej tego błędu nie powtórzy”.

To nie jest prompt engineering. To inżynieria systemowa dla AI.

Dowody: Harness > Model

LangChain przeprowadził kontrolowany eksperyment na Terminal Bench 2.0. Bez zmiany bazowego modelu poprawili dokładność swojego agenta kodującego z 52.8% do 66.5% — co stanowi poprawę o 26% — wyłącznie poprzez ulepszenie harnessu.

Zmiany obejmowały:

Lepsze pliki kontekstowe (AGENTS.md)

Strukturyzowane ograniczenia wyjściowe (output constraints)

Pętle samoweryfikacji

Optymalizację narzędzi

Potwierdza to, co praktycy mówią od dawna: sufitem nie jest model. Jest nim to, co umieścisz wokół niego.

7 komponentów Harnessu

1. Inżynieria kontekstu (Context Engineering)

Inżynieria kontekstu to fundament. To tutaj dajesz agentowi mapę swojej bazy kodu, swoje konwencje i ograniczenia.

W praktyce:

Pliki CLAUDE.md / AGENTS.md w głównym katalogu repozytorium
Mapy katalogów i przeglądy architektury
Zasady stylu kodowania i konwencje nazewnictwa

Kluczowa zasada: Pliki kontekstowe powinny mieć mniej niż 60 linii. Agenci tracą koncentrację przy długich dokumentach — daj im mapę, a nie tysiącstronicową instrukcję.

markdown

# CLAUDE.md example
## Architecture
- src/app/ — Next.js app router pages
- src/lib/ — shared utilities and API clients
- src/components/ — React components (co-located styles)

## Rules
- Use server components by default
- Never import from node_modules directly in components
- All API calls go through src/lib/api.ts

2. Ograniczenia architektoniczne

Zamiast mieć nadzieję, że agent wybierze właściwą architekturę, wymuś ją.

Sztywne architektury warstwowe walidowane przez lintery
Testy strukturalne, które kończą się niepowodzeniem, jeśli wzorce zostaną naruszone
Restrykcje importu poprzez reguły ESLint lub niestandardowe skrypty

Idea: ogranicz przestrzeń rozwiązań, zamiast ją rozszerzać. Mniej poprawnych opcji oznacza mniej błędnych odpowiedzi.

3. Narzędzia i serwery MCP

Agenci potrzebują narzędzi, aby być skutecznymi. Najlepsze harnessy udostępniają wewnętrzne instrumentarium poprzez:

Wrappery CLI — preferuj znane CLI (git, docker, npm) nad niestandardowymi narzędziami
Serwery MCP (Model Context Protocol) — pozwól agentom wywoływać Twoje wewnętrzne API, bazy danych i usługi
Dostęp do systemu plików — ograniczony do konkretnych katalogów, aby zapobiec przypadkowym uszkodzeniom

Pro tip: Preferuj dobrze udokumentowane standardowe narzędzia. Agent potrafi idealnie korzystać z git, ponieważ posiada ogromną ilość danych treningowych na jego temat. Niestandardowe CLI bez dokumentacji go zdezorientuje.

4. Sub-agenci i zapory kontekstowe (Context Firewalls)

Długotrwałe sesje agentów gromadzą kontekst, który ostatecznie pogarsza wydajność — nazywa się to degradacją kontekstu (context rot).

Rozwiązanie: sub-agenci z zaporami kontekstowymi.

Rozbijaj złożone zadania na mniejsze, oddzielne podzadania
Każde podzadanie działa we własnej sesji ze świeżym kontekstem
Przekazuj między agentami tylko ustrukturyzowane wyniki, a nie surową rozmowę

Opublikowana architektura Anthropic wykorzystuje dwóch agentów:

Initializer Agent — planuje pracę, tworzy listę funkcji
Coding Agent — wykonuje każdą funkcję w izolacji

5. Hooki i Back-Pressure

Zautomatyzowane pętle zwrotne, które wychwytują błędy, zanim te się nawarstwią:

Pre-commit hooks — sprawdzanie typów, linting, formatowanie
Test runners — agenci powinni uruchamiać testy po każdej zmianie
Weryfikacja builda — szybkie przerywanie pracy przy uszkodzonych buildach

Krytyczna zasada projektowa: Wyświetlaj błędy w sposób wyraźny, ale nigdy nie wrzucaj rozwlekłych komunikatów o sukcesie do kontekstu agenta. Sukces powinien być cichy. Błędy powinny być głośne.

6. Pętle samoweryfikacji

Zmuś agentów do weryfikacji własnej pracy przed oznaczeniem zadania jako zakończone:

Uruchom zestaw testów po zmianach
Sprawdź, czy build przechodzi pomyślnie
Zweryfikuj, czy wynik jest zgodny ze specyfikacją
Zrób zrzut ekranu i porównaj (w przypadku prac nad UI)

To jest różnica między agentem, który „myśli, że skończył”, a takim, który faktycznie to zrobił.

7. Dokumentacja postępów

W przypadku długotrwałych zadań (ponad 30 minut):

Utrzymuj plik postępu, który śledzi ukończone kroki
Często commituj pracę, aby kolejne sesje mogły być kontynuowane
Używaj ustrukturyzowanych list zadań, a nie luźnych notatek

W ten sposób, jeśli sesja agenta ulegnie awarii lub wyczerpie się kontekst, następna sesja podejmie pracę w miejscu, w którym poprzednia skończyła.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Wyniki z prawdziwego świata

Zespół OpenAI Codex

3 inżynierów stworzyło milion linii kodu bez ani jednej linii napisanej ręcznie w ciągu 5 miesięcy. Osiągali średnio 3,5 zmergowanych PR na inżyniera dziennie — przepustowość niemożliwa do osiągnięcia bez dojrzałego harnessu.

Ich harness obejmował: rygorystyczne konwencje commitów, automatyczne testy przy każdym PR oraz potoki CI/CD świadome obecności agentów.

"Minionki" w Stripe

Wewnętrzny system Stripe produkuje ponad 1000 zmergowanych PR tygodniowo przy użyciu agentów AI. Ich harness zawiera:

Ściśle określone definicje zadań
Obowiązkowe code review wykonywane przez ludzi
Automatyczne testy regresyjne
Automatyzację rollbacków

Architektura dwóch agentów Anthropic

Anthropic opublikował swoje podejście do efektywnych harnessów dla długo działających agentów:

Ustrukturyzowane listy funkcji jako format przekazywania zadań między agentami
Śledzenie postępów oparte na Git, dzięki czemu agenci mogą wznowić pracę po przerwie
Jasne kryteria wyjścia, aby agenci wiedzieli, kiedy przestać

Jak zacząć budować swój Harness

Krok 1: Utwórz plik kontekstowy

Dodaj CLAUDE.md (lub AGENTS.md) do głównego katalogu swojego projektu:

markdown

# Project: [Your Project]

## Stack
[Framework, language, database, hosting]

## Architecture
[Directory structure with one-line descriptions]

## Rules
[5-10 hard rules the agent must follow]

## Common Tasks
[How to run tests, build, deploy]

Krok 2: Dodaj ograniczenia strukturalne

bash

# Example: ESLint rule preventing direct DB imports in components
# .eslintrc — no-restricted-imports rule

Skonfiguruj pre-commit hooki, które automatycznie wymuszają Twoje zasady.

Krok 3: Zbuduj pętle weryfikacji buildu

Upewnij się, że Twój agent może:

Uruchamiać testy (npm test, pytest, itp.)

Sprawdzać typy (tsc --noEmit, mypy)

Wykonywać linting (eslint ., ruff check)

Włącz je do workflow agenta, aby uruchamiały się po każdej zmianie.

Krok 4: Ogranicz zakres sesji agenta

Nie dawaj agentowi całego backlogu. Zamiast tego:

Jedna funkcja (feature) na sesję
Jedna poprawka błędu na sesję
Jasne kryteria akceptacji dla każdego zadania

Krok 5: Iteruj nad harnessem

Za każdym razem, gdy agent popełni błąd:

Zidentyfikuj przyczynę źródłową
Dodaj regułę, ograniczenie lub hook, który temu zapobiegnie
Przetestuj poprawkę

Z czasem Twój harness stanie się lepszy, a Twoi agenci bardziej niezawodni — bez konieczności aktualizacji modelu.

Harness Engineering vs. Prompt Engineering

Prompt Engineering	Harness Engineering
Skupienie	To, co mówisz do modelu	To, co budujesz wokół modelu
Trwałość	Kruche, zależne od modelu	Solidne, niezależne od modelu
Kumulacja	Nie poprawia się z czasem	Staje się lepsze z każdą iteracją
Zakres	Pojedyncza interakcja	Cały workflow
Typ umiejętności	Pisanie	Inżynieria systemowa

Prompt engineering jest nadal użyteczny, ale to tylko mała część obrazu. Harness engineering jest mnożnikiem siły.

Nowa rola: Inżynier Harnessu (Harness Engineer)

Inżynieria dzieli się na dwie połowy:

Budowanie środowiska — tworzenie struktury, narzędzi, ograniczeń i pętli zwrotnych
Zarządzanie pracą — planowanie, przeglądanie i orkiestracja równoległych sesji agentów

Inżynierowie, którzy odniosą sukces w 2026 roku, to nie ci, którzy piszą najwięcej kodu. To ci, którzy budują najlepsze środowiska, w których agenci mogą pisać kod.

Nie mylić z: Harness.io

Jeśli szukałeś „Harness Engineering” w poszukiwaniu platformy DevOps — Harness.io to zupełnie inna rzecz. Jest to platforma CI/CD napędzana przez AI, wyceniana na 5,5 mld USD (stan na grudzień 2025), która oferuje ciągłą integrację, dostarczanie, feature flagi, zarządzanie kosztami chmury i testy bezpieczeństwa.

Chociaż Harness.io i harness engineering dzielą nazwę, rozwiązują inne problemy. Istnieje jednak interesujący punkt styku: DevOps napędzany przez AI od Harness.io jest prawdopodobnie zastosowaniem zasad harness engineering w potoku wdrażania.

Podsumowanie

Model to silnik. Harness to samochód. Nikt nie wygrywa wyścigu samym silnikiem.

Jeśli używasz agentów AI do kodowania w 2026 roku i nie inwestujesz w swój harness, tracisz większość wartości. Zacznij od pliku kontekstowego, dodaj ograniczenia, zbuduj pętle weryfikacyjne i iteruj za każdym razem, gdy coś pójdzie nie tak.

Zespoły, które dostarczają kod najszybciej, nie używają lepszych modeli. Używają lepszych harnessów.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Powrót do bloga

26 marca 2026·Y Build Team

Harness Engineering: Budowanie systemów wokół agentów AI (2026)

Harness EngineeringAgenci AIAgenci kodującyClaude CodeCodexDevOpsSoftware Engineering2026

TL;DR

Koncepcja	Podsumowanie
Formuła	Agent = Model + Harness
Czym jest harness?	Wszystko wokół modelu AI: kontekst, ograniczenia, narzędzia, pętle weryfikacyjne
Kluczowy wniosek	LangChain poprawił dokładność agenta z 52.8% → 66.5% zmieniając tylko harness, a nie model
Kto z tego korzysta	OpenAI (Codex), Stripe (ponad 1000 PR/tydzień), Anthropic, Vercel
Kluczowe komponenty	Inżynieria kontekstu, ograniczenia architektoniczne, narzędzia/MCP, sub-agenci, hooki, samoweryfikacja

Czym jest Harness Engineering?

Harness engineering to dyscyplina budowania systemów, narzędzi, ograniczeń i pętli zwrotnych wokół agentów AI do kodowania, aby uczynić ich niezawodnymi i produktywnymi.

Główna idea jest prosta:

Agent = Model + Harness

Model dostarcza inteligencję. Harness sprawia, że ta inteligencja staje się użyteczna. Lepszy harness często ma większe znaczenie niż lepszy model.

Dlaczego to ma teraz znaczenie

Zasada przewodnia Mitchella Hashimoto:

„Za każdym razem, gdy zauważysz, że agent popełnia błąd, poświęć czas na zaprojektowanie rozwiązania, dzięki któremu agent nigdy więcej tego błędu nie powtórzy”.

To nie jest prompt engineering. To inżynieria systemowa dla AI.

Dowody: Harness > Model

Zmiany obejmowały:

Lepsze pliki kontekstowe (AGENTS.md)

Strukturyzowane ograniczenia wyjściowe (output constraints)

Pętle samoweryfikacji

Optymalizację narzędzi

Potwierdza to, co praktycy mówią od dawna: sufitem nie jest model. Jest nim to, co umieścisz wokół niego.

7 komponentów Harnessu

1. Inżynieria kontekstu (Context Engineering)

Inżynieria kontekstu to fundament. To tutaj dajesz agentowi mapę swojej bazy kodu, swoje konwencje i ograniczenia.

W praktyce:

Pliki CLAUDE.md / AGENTS.md w głównym katalogu repozytorium
Mapy katalogów i przeglądy architektury
Zasady stylu kodowania i konwencje nazewnictwa

Kluczowa zasada: Pliki kontekstowe powinny mieć mniej niż 60 linii. Agenci tracą koncentrację przy długich dokumentach — daj im mapę, a nie tysiącstronicową instrukcję.

markdown

# CLAUDE.md example
## Architecture
- src/app/ — Next.js app router pages
- src/lib/ — shared utilities and API clients
- src/components/ — React components (co-located styles)

## Rules
- Use server components by default
- Never import from node_modules directly in components
- All API calls go through src/lib/api.ts

2. Ograniczenia architektoniczne

Zamiast mieć nadzieję, że agent wybierze właściwą architekturę, wymuś ją.

Sztywne architektury warstwowe walidowane przez lintery
Testy strukturalne, które kończą się niepowodzeniem, jeśli wzorce zostaną naruszone
Restrykcje importu poprzez reguły ESLint lub niestandardowe skrypty

Idea: ogranicz przestrzeń rozwiązań, zamiast ją rozszerzać. Mniej poprawnych opcji oznacza mniej błędnych odpowiedzi.

3. Narzędzia i serwery MCP

Agenci potrzebują narzędzi, aby być skutecznymi. Najlepsze harnessy udostępniają wewnętrzne instrumentarium poprzez:

Wrappery CLI — preferuj znane CLI (git, docker, npm) nad niestandardowymi narzędziami
Serwery MCP (Model Context Protocol) — pozwól agentom wywoływać Twoje wewnętrzne API, bazy danych i usługi
Dostęp do systemu plików — ograniczony do konkretnych katalogów, aby zapobiec przypadkowym uszkodzeniom

4. Sub-agenci i zapory kontekstowe (Context Firewalls)

Długotrwałe sesje agentów gromadzą kontekst, który ostatecznie pogarsza wydajność — nazywa się to degradacją kontekstu (context rot).

Rozwiązanie: sub-agenci z zaporami kontekstowymi.

Rozbijaj złożone zadania na mniejsze, oddzielne podzadania
Każde podzadanie działa we własnej sesji ze świeżym kontekstem
Przekazuj między agentami tylko ustrukturyzowane wyniki, a nie surową rozmowę

Opublikowana architektura Anthropic wykorzystuje dwóch agentów:

Initializer Agent — planuje pracę, tworzy listę funkcji
Coding Agent — wykonuje każdą funkcję w izolacji

5. Hooki i Back-Pressure

Zautomatyzowane pętle zwrotne, które wychwytują błędy, zanim te się nawarstwią:

Pre-commit hooks — sprawdzanie typów, linting, formatowanie
Test runners — agenci powinni uruchamiać testy po każdej zmianie
Weryfikacja builda — szybkie przerywanie pracy przy uszkodzonych buildach

6. Pętle samoweryfikacji

Zmuś agentów do weryfikacji własnej pracy przed oznaczeniem zadania jako zakończone:

Uruchom zestaw testów po zmianach
Sprawdź, czy build przechodzi pomyślnie
Zweryfikuj, czy wynik jest zgodny ze specyfikacją
Zrób zrzut ekranu i porównaj (w przypadku prac nad UI)

To jest różnica między agentem, który „myśli, że skończył”, a takim, który faktycznie to zrobił.

7. Dokumentacja postępów

W przypadku długotrwałych zadań (ponad 30 minut):

Utrzymuj plik postępu, który śledzi ukończone kroki
Często commituj pracę, aby kolejne sesje mogły być kontynuowane
Używaj ustrukturyzowanych list zadań, a nie luźnych notatek

W ten sposób, jeśli sesja agenta ulegnie awarii lub wyczerpie się kontekst, następna sesja podejmie pracę w miejscu, w którym poprzednia skończyła.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Wyniki z prawdziwego świata

Zespół OpenAI Codex

Ich harness obejmował: rygorystyczne konwencje commitów, automatyczne testy przy każdym PR oraz potoki CI/CD świadome obecności agentów.

"Minionki" w Stripe

Wewnętrzny system Stripe produkuje ponad 1000 zmergowanych PR tygodniowo przy użyciu agentów AI. Ich harness zawiera:

Ściśle określone definicje zadań
Obowiązkowe code review wykonywane przez ludzi
Automatyczne testy regresyjne
Automatyzację rollbacków

Architektura dwóch agentów Anthropic

Anthropic opublikował swoje podejście do efektywnych harnessów dla długo działających agentów:

Ustrukturyzowane listy funkcji jako format przekazywania zadań między agentami
Śledzenie postępów oparte na Git, dzięki czemu agenci mogą wznowić pracę po przerwie
Jasne kryteria wyjścia, aby agenci wiedzieli, kiedy przestać

Jak zacząć budować swój Harness

Krok 1: Utwórz plik kontekstowy

Dodaj CLAUDE.md (lub AGENTS.md) do głównego katalogu swojego projektu:

markdown

# Project: [Your Project]

## Stack
[Framework, language, database, hosting]

## Architecture
[Directory structure with one-line descriptions]

## Rules
[5-10 hard rules the agent must follow]

## Common Tasks
[How to run tests, build, deploy]

Krok 2: Dodaj ograniczenia strukturalne

bash

# Example: ESLint rule preventing direct DB imports in components
# .eslintrc — no-restricted-imports rule

Skonfiguruj pre-commit hooki, które automatycznie wymuszają Twoje zasady.

Krok 3: Zbuduj pętle weryfikacji buildu

Upewnij się, że Twój agent może:

Uruchamiać testy (npm test, pytest, itp.)

Sprawdzać typy (tsc --noEmit, mypy)

Wykonywać linting (eslint ., ruff check)

Włącz je do workflow agenta, aby uruchamiały się po każdej zmianie.

Krok 4: Ogranicz zakres sesji agenta

Nie dawaj agentowi całego backlogu. Zamiast tego:

Jedna funkcja (feature) na sesję
Jedna poprawka błędu na sesję
Jasne kryteria akceptacji dla każdego zadania

Krok 5: Iteruj nad harnessem

Za każdym razem, gdy agent popełni błąd:

Zidentyfikuj przyczynę źródłową
Dodaj regułę, ograniczenie lub hook, który temu zapobiegnie
Przetestuj poprawkę

Z czasem Twój harness stanie się lepszy, a Twoi agenci bardziej niezawodni — bez konieczności aktualizacji modelu.

Harness Engineering vs. Prompt Engineering

Prompt Engineering	Harness Engineering
Skupienie	To, co mówisz do modelu	To, co budujesz wokół modelu
Trwałość	Kruche, zależne od modelu	Solidne, niezależne od modelu
Kumulacja	Nie poprawia się z czasem	Staje się lepsze z każdą iteracją
Zakres	Pojedyncza interakcja	Cały workflow
Typ umiejętności	Pisanie	Inżynieria systemowa

Prompt engineering jest nadal użyteczny, ale to tylko mała część obrazu. Harness engineering jest mnożnikiem siły.

Nowa rola: Inżynier Harnessu (Harness Engineer)

Inżynieria dzieli się na dwie połowy:

Budowanie środowiska — tworzenie struktury, narzędzi, ograniczeń i pętli zwrotnych
Zarządzanie pracą — planowanie, przeglądanie i orkiestracja równoległych sesji agentów

Inżynierowie, którzy odniosą sukces w 2026 roku, to nie ci, którzy piszą najwięcej kodu. To ci, którzy budują najlepsze środowiska, w których agenci mogą pisać kod.

Nie mylić z: Harness.io

Podsumowanie

Model to silnik. Harness to samochód. Nikt nie wygrywa wyścigu samym silnikiem.

Zespoły, które dostarczają kod najszybciej, nie używają lepszych modeli. Używają lepszych harnessów.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.