Harness Engineering: Budowanie systemów wokół agentów AI (2026)
Harness engineering to sposób, w jaki czołowe zespoły zapewniają niezawodność agentów AI do kodowania. Poznaj formułę Agent = Model + Harness, kluczowe komponenty i rzeczywiste wyniki z OpenAI, Stripe oraz Anthropic.
TL;DR
| Koncepcja | Podsumowanie |
|---|---|
| Formuła | Agent = Model + Harness |
| Czym jest harness? | Wszystko wokół modelu AI: kontekst, ograniczenia, narzędzia, pętle weryfikacyjne |
| Kluczowy wniosek | LangChain poprawił dokładność agenta z 52.8% → 66.5% zmieniając tylko harness, a nie model |
| Kto z tego korzysta | OpenAI (Codex), Stripe (ponad 1000 PR/tydzień), Anthropic, Vercel |
| Kluczowe komponenty | Inżynieria kontekstu, ograniczenia architektoniczne, narzędzia/MCP, sub-agenci, hooki, samoweryfikacja |
Czym jest Harness Engineering?
Harness engineering to dyscyplina budowania systemów, narzędzi, ograniczeń i pętli zwrotnych wokół agentów AI do kodowania, aby uczynić ich niezawodnymi i produktywnymi.
Termin ten został ukuty przez Mitchella Hashimoto (współzałożyciela HashiCorp) i zyskał powszechną uwagę, gdy OpenAI opublikowało swój artykuł o Codex na ten temat na początku 2026 roku.
Główna idea jest prosta:
Agent = Model + Harness
Model dostarcza inteligencję. Harness sprawia, że ta inteligencja staje się użyteczna. Lepszy harness często ma większe znaczenie niż lepszy model.
Dlaczego to ma teraz znaczenie
W 2025 roku każdy zespół wdrożył agentów AI do kodowania. W 2026 roku wygrywają te zespoły, które zaprojektowały środowiska dla swoich agentów (engineered their agent environments) — a nie tylko wybrały najlepszy model.
Zasada przewodnia Mitchella Hashimoto:
„Za każdym razem, gdy zauważysz, że agent popełnia błąd, poświęć czas na zaprojektowanie rozwiązania, dzięki któremu agent nigdy więcej tego błędu nie powtórzy”.
To nie jest prompt engineering. To inżynieria systemowa dla AI.
Dowody: Harness > Model
LangChain przeprowadził kontrolowany eksperyment na Terminal Bench 2.0. Bez zmiany bazowego modelu poprawili dokładność swojego agenta kodującego z 52.8% do 66.5% — co stanowi poprawę o 26% — wyłącznie poprzez ulepszenie harnessu.
Zmiany obejmowały:
- Lepsze pliki kontekstowe (AGENTS.md)
- Strukturyzowane ograniczenia wyjściowe (output constraints)
- Pętle samoweryfikacji
- Optymalizację narzędzi
Potwierdza to, co praktycy mówią od dawna: sufitem nie jest model. Jest nim to, co umieścisz wokół niego.
7 komponentów Harnessu
1. Inżynieria kontekstu (Context Engineering)
Inżynieria kontekstu to fundament. To tutaj dajesz agentowi mapę swojej bazy kodu, swoje konwencje i ograniczenia.
W praktyce:- Pliki
CLAUDE.md/AGENTS.mdw głównym katalogu repozytorium - Mapy katalogów i przeglądy architektury
- Zasady stylu kodowania i konwencje nazewnictwa
# CLAUDE.md example
## Architecture
- src/app/ — Next.js app router pages
- src/lib/ — shared utilities and API clients
- src/components/ — React components (co-located styles)
## Rules
- Use server components by default
- Never import from node_modules directly in components
- All API calls go through src/lib/api.ts
2. Ograniczenia architektoniczne
Zamiast mieć nadzieję, że agent wybierze właściwą architekturę, wymuś ją.
- Sztywne architektury warstwowe walidowane przez lintery
- Testy strukturalne, które kończą się niepowodzeniem, jeśli wzorce zostaną naruszone
- Restrykcje importu poprzez reguły ESLint lub niestandardowe skrypty
3. Narzędzia i serwery MCP
Agenci potrzebują narzędzi, aby być skutecznymi. Najlepsze harnessy udostępniają wewnętrzne instrumentarium poprzez:
- Wrappery CLI — preferuj znane CLI (git, docker, npm) nad niestandardowymi narzędziami
- Serwery MCP (Model Context Protocol) — pozwól agentom wywoływać Twoje wewnętrzne API, bazy danych i usługi
- Dostęp do systemu plików — ograniczony do konkretnych katalogów, aby zapobiec przypadkowym uszkodzeniom
git, ponieważ posiada ogromną ilość danych treningowych na jego temat. Niestandardowe CLI bez dokumentacji go zdezorientuje.
4. Sub-agenci i zapory kontekstowe (Context Firewalls)
Długotrwałe sesje agentów gromadzą kontekst, który ostatecznie pogarsza wydajność — nazywa się to degradacją kontekstu (context rot).
Rozwiązanie: sub-agenci z zaporami kontekstowymi.
- Rozbijaj złożone zadania na mniejsze, oddzielne podzadania
- Każde podzadanie działa we własnej sesji ze świeżym kontekstem
- Przekazuj między agentami tylko ustrukturyzowane wyniki, a nie surową rozmowę
- Initializer Agent — planuje pracę, tworzy listę funkcji
- Coding Agent — wykonuje każdą funkcję w izolacji
5. Hooki i Back-Pressure
Zautomatyzowane pętle zwrotne, które wychwytują błędy, zanim te się nawarstwią:
- Pre-commit hooks — sprawdzanie typów, linting, formatowanie
- Test runners — agenci powinni uruchamiać testy po każdej zmianie
- Weryfikacja builda — szybkie przerywanie pracy przy uszkodzonych buildach
6. Pętle samoweryfikacji
Zmuś agentów do weryfikacji własnej pracy przed oznaczeniem zadania jako zakończone:
- Uruchom zestaw testów po zmianach
- Sprawdź, czy build przechodzi pomyślnie
- Zweryfikuj, czy wynik jest zgodny ze specyfikacją
- Zrób zrzut ekranu i porównaj (w przypadku prac nad UI)
7. Dokumentacja postępów
W przypadku długotrwałych zadań (ponad 30 minut):
- Utrzymuj plik postępu, który śledzi ukończone kroki
- Często commituj pracę, aby kolejne sesje mogły być kontynuowane
- Używaj ustrukturyzowanych list zadań, a nie luźnych notatek
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Wyniki z prawdziwego świata
Zespół OpenAI Codex
3 inżynierów stworzyło milion linii kodu bez ani jednej linii napisanej ręcznie w ciągu 5 miesięcy. Osiągali średnio 3,5 zmergowanych PR na inżyniera dziennie — przepustowość niemożliwa do osiągnięcia bez dojrzałego harnessu.
Ich harness obejmował: rygorystyczne konwencje commitów, automatyczne testy przy każdym PR oraz potoki CI/CD świadome obecności agentów.
"Minionki" w Stripe
Wewnętrzny system Stripe produkuje ponad 1000 zmergowanych PR tygodniowo przy użyciu agentów AI. Ich harness zawiera:
- Ściśle określone definicje zadań
- Obowiązkowe code review wykonywane przez ludzi
- Automatyczne testy regresyjne
- Automatyzację rollbacków
Architektura dwóch agentów Anthropic
Anthropic opublikował swoje podejście do efektywnych harnessów dla długo działających agentów:
- Ustrukturyzowane listy funkcji jako format przekazywania zadań między agentami
- Śledzenie postępów oparte na Git, dzięki czemu agenci mogą wznowić pracę po przerwie
- Jasne kryteria wyjścia, aby agenci wiedzieli, kiedy przestać
Jak zacząć budować swój Harness
Krok 1: Utwórz plik kontekstowy
Dodaj CLAUDE.md (lub AGENTS.md) do głównego katalogu swojego projektu:
# Project: [Your Project]
## Stack
[Framework, language, database, hosting]
## Architecture
[Directory structure with one-line descriptions]
## Rules
[5-10 hard rules the agent must follow]
## Common Tasks
[How to run tests, build, deploy]
Krok 2: Dodaj ograniczenia strukturalne
# Example: ESLint rule preventing direct DB imports in components
# .eslintrc — no-restricted-imports rule
Skonfiguruj pre-commit hooki, które automatycznie wymuszają Twoje zasady.
Krok 3: Zbuduj pętle weryfikacji buildu
Upewnij się, że Twój agent może:
- Uruchamiać testy (
npm test,pytest, itp.) - Sprawdzać typy (
tsc --noEmit,mypy) - Wykonywać linting (
eslint .,ruff check)
Włącz je do workflow agenta, aby uruchamiały się po każdej zmianie.
Krok 4: Ogranicz zakres sesji agenta
Nie dawaj agentowi całego backlogu. Zamiast tego:
- Jedna funkcja (feature) na sesję
- Jedna poprawka błędu na sesję
- Jasne kryteria akceptacji dla każdego zadania
Krok 5: Iteruj nad harnessem
Za każdym razem, gdy agent popełni błąd:
- Zidentyfikuj przyczynę źródłową
- Dodaj regułę, ograniczenie lub hook, który temu zapobiegnie
- Przetestuj poprawkę
Harness Engineering vs. Prompt Engineering
| Prompt Engineering | Harness Engineering | |
|---|---|---|
| Skupienie | To, co mówisz do modelu | To, co budujesz wokół modelu |
| Trwałość | Kruche, zależne od modelu | Solidne, niezależne od modelu |
| Kumulacja | Nie poprawia się z czasem | Staje się lepsze z każdą iteracją |
| Zakres | Pojedyncza interakcja | Cały workflow |
| Typ umiejętności | Pisanie | Inżynieria systemowa |
Prompt engineering jest nadal użyteczny, ale to tylko mała część obrazu. Harness engineering jest mnożnikiem siły.
Nowa rola: Inżynier Harnessu (Harness Engineer)
Inżynieria dzieli się na dwie połowy:
- Budowanie środowiska — tworzenie struktury, narzędzi, ograniczeń i pętli zwrotnych
- Zarządzanie pracą — planowanie, przeglądanie i orkiestracja równoległych sesji agentów
Nie mylić z: Harness.io
Jeśli szukałeś „Harness Engineering” w poszukiwaniu platformy DevOps — Harness.io to zupełnie inna rzecz. Jest to platforma CI/CD napędzana przez AI, wyceniana na 5,5 mld USD (stan na grudzień 2025), która oferuje ciągłą integrację, dostarczanie, feature flagi, zarządzanie kosztami chmury i testy bezpieczeństwa.
Chociaż Harness.io i harness engineering dzielą nazwę, rozwiązują inne problemy. Istnieje jednak interesujący punkt styku: DevOps napędzany przez AI od Harness.io jest prawdopodobnie zastosowaniem zasad harness engineering w potoku wdrażania.
Podsumowanie
Model to silnik. Harness to samochód. Nikt nie wygrywa wyścigu samym silnikiem.
Jeśli używasz agentów AI do kodowania w 2026 roku i nie inwestujesz w swój harness, tracisz większość wartości. Zacznij od pliku kontekstowego, dodaj ograniczenia, zbuduj pętle weryfikacyjne i iteruj za każdym razem, gdy coś pójdzie nie tak.
Zespoły, które dostarczają kod najszybciej, nie używają lepszych modeli. Używają lepszych harnessów.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.