Harness Engineering: Systeme um KI-Agenten herum bauen (2026)
Harness Engineering ist die Methode, mit der Top-Teams KI-Coding-Agenten zuverlässig machen. Erfahren Sie mehr über die Formel Agent = Modell + Harness, Kernkomponenten und echte Ergebnisse von OpenAI, Stripe und Anthropic.
TL;DR
| Konzept | Zusammenfassung |
|---|---|
| Formel | Agent = Modell + Harness |
| Was ist ein Harness? | Alles um das KI-Modell herum: Kontext, Constraints, Tools, Verifizierungsschleifen |
| Zentrale Erkenntnis | LangChain verbesserte die Agent-Genauigkeit von 52,8 % → 66,5 %, indem nur der Harness geändert wurde, nicht das Modell |
| Wer es nutzt | OpenAI (Codex), Stripe (über 1.000 PRs/Woche), Anthropic, Vercel |
| Kernkomponenten | Context Engineering, Architektur-Constraints, Tools/MCP, Sub-Agenten, Hooks, Selbstverifizierung |
Was ist Harness Engineering?
Harness Engineering ist die Disziplin, Systeme, Tools, Constraints und Feedback-Schleifen um KI-Coding-Agenten herum aufzubauen, um sie zuverlässig und produktiv zu machen.
Der Begriff wurde von Mitchell Hashimoto (Mitbegründer von HashiCorp) geprägt und erlangte im Mainstream Aufmerksamkeit, als OpenAI Anfang 2026 ihren Codex-Artikel zu diesem Thema veröffentlichte.
Die Kernidee ist einfach:
Agent = Modell + Harness
Das Modell liefert die Intelligenz. Der Harness macht diese Intelligenz nützlich. Ein besserer Harness ist oft wichtiger als ein besseres Modell.
Warum es jetzt wichtig ist
Im Jahr 2025 haben alle Teams KI-Coding-Agenten eingeführt. Im Jahr 2026 sind die Gewinner-Teams diejenigen, die ihre Agenten-Umgebungen optimiert (engineered) haben – und nicht nur das beste Modell ausgewählt haben.
Mitchell Hashimotos Leitprinzip:
"Jedes Mal, wenn Sie feststellen, dass ein Agent einen Fehler macht, nehmen Sie sich die Zeit, eine Lösung zu entwickeln, damit der Agent diesen Fehler nie wieder macht."
Das ist kein Prompt Engineering. Es ist Systems Engineering für KI.
Der Beweis: Harness > Modell
LangChain führte ein kontrolliertes Experiment auf Terminal Bench 2.0 durch. Ohne das zugrunde liegende Modell zu ändern, verbesserten sie die Genauigkeit ihres Coding-Agenten von 52,8 % auf 66,5 % – eine Verbesserung um 26 % – allein durch die Optimierung des Harness.
Die Änderungen umfassten:
- Bessere Kontext-Dateien (AGENTS.md)
- Strukturierte Output-Constraints
- Selbstverifizierungsschleifen
- Tool-Optimierung
Dies bestätigt, was Praktiker bereits sagten: Die Obergrenze ist nicht das Modell. Es ist das, was man drumherum baut.
Die 7 Komponenten eines Harness
1. Context Engineering
Context Engineering ist das Fundament. Hier geben Sie dem Agenten eine Karte Ihrer Codebasis, Ihrer Konventionen und Ihrer Constraints.
In der Praxis:CLAUDE.md/AGENTS.mdDateien im Root-Verzeichnis Ihres Repos- Verzeichnis-Karten und Architektur-Übersichten
- Coding-Style-Regeln und Namenskonventionen
# CLAUDE.md example
## Architecture
- src/app/ — Next.js app router pages
- src/lib/ — shared utilities and API clients
- src/components/ — React components (co-located styles)
## Rules
- Use server components by default
- Never import from node_modules directly in components
- All API calls go through src/lib/api.ts
2. Architectural Constraints
Anstatt zu hoffen, dass der Agent die richtige Architektur wählt, erzwingen Sie diese.
- Strenge Schichtenarchitekturen, validiert durch Linter
- Strukturtests, die fehlschlagen, wenn Muster verletzt werden
- Import-Beschränkungen über ESLint-Regeln oder benutzerdefinierte Skripte
3. Tools & MCP Servers
Agenten brauchen Tools, um effektiv zu sein. Die besten Harnesses stellen interne Werkzeuge bereit über:
- CLI-Wrapper – bevorzugen Sie bekannte CLIs (git, docker, npm) gegenüber proprietären Tools
- MCP (Model Context Protocol) Server – lassen Sie Agenten Ihre internen APIs, Datenbanken und Dienste aufrufen
- Dateisystem-Zugriff – beschränkt auf spezifische Verzeichnisse, um versehentliche Schäden zu verhindern
git perfekt nutzen, weil er über massive Trainingsdaten dazu verfügt. Ein spezielles CLI ohne Dokumentation wird ihn verwirren.
4. Sub-Agenten & Context Firewalls
Lang laufende Agenten-Sitzungen akkumulieren Kontext, was schließlich die Leistung verschlechtert – dies wird als Context Rot bezeichnet.
Die Lösung: Sub-Agenten mit Context Firewalls.
- Zerlegen Sie komplexe Aufgaben in diskrete Teilaufgaben
- Jede Teilaufgabe läuft in einer eigenen Sitzung mit frischem Kontext
- Übergeben Sie nur strukturierte Ergebnisse zwischen Agenten, keine rohen Konversationen
- Initializer Agent – plant die Arbeit, erstellt eine Feature-Liste
- Coding Agent – führt jedes Feature isoliert aus
5. Hooks & Back-Pressure
Automatisierte Feedback-Schleifen, die Fehler abfangen, bevor sie sich potenzieren:
- Pre-commit hooks – Type-Checking, Linting, Formatierung
- Test-Runner – Agenten sollten nach jeder Änderung Tests ausführen
- Build-Verifizierung – schnelles Fail-Fast bei defekten Builds
6. Selbstverifizierungsschleifen
Zwingen Sie Agenten dazu, ihre eigene Arbeit zu verifizieren, bevor sie Aufgaben als abgeschlossen markieren:
- Führen Sie die Test-Suite nach Änderungen aus
- Überprüfen Sie, ob der Build erfolgreich ist
- Verifizieren Sie, dass der Output der Spezifikation entspricht
- Machen Sie einen Screenshot und vergleichen Sie ihn (bei UI-Arbeiten)
7. Dokumentation des Fortschritts
Für lang laufende Aufgaben (über 30 Minuten):
- Führen Sie eine Fortschrittsdatei, die abgeschlossene Schritte verfolgt
- Committen Sie die Arbeit häufig, damit nachfolgende Sitzungen fortfahren können
- Verwenden Sie strukturierte Aufgabenlisten, keine Freitext-Notizen
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Ergebnisse aus der Praxis
OpenAI Codex Team
3 Ingenieure erstellten über 5 Monate hinweg eine Codebasis mit einer Million Zeilen mit null manuell geschriebenem Code. Sie erreichten durchschnittlich 3,5 gemergte PRs pro Ingenieur pro Tag – ein Durchsatz, der ohne einen ausgereiften Harness unmöglich ist.
Ihr Harness umfasste: strikte Commit-Konventionen, automatisierte Tests bei jedem PR und agenten-optimierte CI/CD-Pipelines.
Stripes "Minions"
Das interne System von Stripe produziert über 1.000 gemergte PRs pro Woche mithilfe von KI-Agenten. Ihr Harness beinhaltet:
- Eng gefasste Aufgabendefinitionen
- Obligatorische Code-Reviews durch Menschen
- Automatisierte Regressionstests
- Rollback-Automatisierung
Anthropics Zwei-Agenten-Architektur
Anthropic veröffentlichte ihren Ansatz für effektive Harnesses bei lang laufenden Agenten:
- Strukturierte Feature-Listen als Übergabeformat zwischen Agenten
- Git-basiertes Fortschrittstracking, damit Agenten nach Unterbrechungen fortfahren können
- Explizite Exit-Kriterien, damit Agenten wissen, wann sie aufhören müssen
So fangen Sie an, Ihren Harness zu bauen
Schritt 1: Erstellen Sie Ihre Kontext-Datei
Fügen Sie eine CLAUDE.md (oder AGENTS.md) in Ihrem Projekt-Root hinzu:
# Project: [Your Project]
## Stack
[Framework, language, database, hosting]
## Architecture
[Directory structure with one-line descriptions]
## Rules
[5-10 hard rules the agent must follow]
## Common Tasks
[How to run tests, build, deploy]
Schritt 2: Fügen Sie strukturelle Constraints hinzu
# Beispiel: ESLint-Regel, die direkte DB-Imports in Komponenten verhindert
# .eslintrc — no-restricted-imports rule
Richten Sie Pre-commit-Hooks ein, die Ihre Regeln automatisch erzwingen.
Schritt 3: Bauen Sie Verifizierungsschleifen
Stellen Sie sicher, dass Ihr Agent Folgendes kann:
- Tests ausführen (
npm test,pytest, etc.) - Typen prüfen (
tsc --noEmit,mypy) - Linting durchführen (
eslint .,ruff check)
Integrieren Sie diese in den Workflow Ihres Agenten, sodass sie nach jeder Änderung ausgeführt werden.
Schritt 4: Begrenzen Sie Agenten-Sitzungen
Geben Sie einem Agenten nicht Ihr gesamtes Backlog. Stattdessen:
- Ein Feature pro Sitzung
- Ein Bugfix pro Sitzung
- Klare Akzeptanzkriterien für jede Aufgabe
Schritt 5: Iterieren Sie am Harness
Jedes Mal, wenn ein Agent einen Fehler macht:
- Identifizieren Sie die Ursache
- Fügen Sie eine Regel, einen Constraint oder einen Hook hinzu, der dies verhindert
- Testen Sie den Fix
Harness Engineering vs. Prompt Engineering
| Prompt Engineering | Harness Engineering | |
|---|---|---|
| Fokus | Was Sie dem Modell sagen | Was Sie um das Modell herum bauen |
| Beständigkeit | Fragil, modellabhängig | Robust, modellunabhängig |
| Kumulierung | Verbessert sich nicht mit der Zeit | Wird mit jeder Iteration besser |
| Umfang | Einzelne Interaktion | Gesamter Workflow |
| Art der Fähigkeit | Schreiben | Systems Engineering |
Prompt Engineering ist immer noch nützlich, aber es ist nur ein kleiner Teil des Ganzen. Harness Engineering ist der Multiplikator.
Die neue Rolle: Der Harness Engineer
Das Engineering spaltet sich in zwei Hälften:
- Aufbau der Umgebung – Erstellung von Struktur, Tools, Constraints und Feedback-Schleifen
- Arbeitsmanagement – Planung, Review und Orchestrierung paralleler Agenten-Sitzungen
Nicht zu verwechseln mit: Harness.io
Falls Sie nach "Harness Engineering" gesucht haben und die DevOps-Plattform meinten – Harness.io ist etwas völlig anderes. Es ist eine KI-gestützte CI/CD-Plattform, die (Stand Dezember 2025) mit 5,5 Mrd. USD bewertet wird und Continuous Integration, Delivery, Feature Flags, Cloud-Kostenmanagement und Sicherheitstests anbietet.
Obwohl Harness.io und Harness Engineering den Namen teilen, lösen sie unterschiedliche Probleme. Es gibt jedoch eine interessante Überschneidung: Das KI-gestützte DevOps von Harness.io ist wohl eine Anwendung von Harness-Engineering-Prinzipien auf die Deployment-Pipeline.
Fazit
Das Modell ist der Motor. Der Harness ist das Auto. Niemand gewinnt ein Rennen nur mit einem Motor.
Wenn Sie im Jahr 2026 KI-Coding-Agenten einsetzen und nicht in Ihren Harness investieren, lassen Sie den Großteil des Wertes ungenutzt. Beginnen Sie mit einer Kontext-Datei, fügen Sie Constraints hinzu, bauen Sie Verifizierungsschleifen und iterieren Sie jedes Mal, wenn etwas schiefgeht.
Die Teams, die am schnellsten liefern, nutzen keine besseren Modelle. Sie nutzen bessere Harnesses.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.