26. März 2026·Y Build Team

Harness Engineering: Systeme um KI-Agenten herum bauen (2026)

Harness Engineering ist die Methode, mit der Top-Teams KI-Coding-Agenten zuverlässig machen. Erfahren Sie mehr über die Formel Agent = Modell + Harness, Kernkomponenten und echte Ergebnisse von OpenAI, Stripe und Anthropic.

Harness EngineeringKI-AgentenCoding-AgentenClaude CodeCodexDevOpsSoftware Engineering2026

TL;DR

Konzept	Zusammenfassung
Formel	Agent = Modell + Harness
Was ist ein Harness?	Alles um das KI-Modell herum: Kontext, Constraints, Tools, Verifizierungsschleifen
Zentrale Erkenntnis	LangChain verbesserte die Agent-Genauigkeit von 52,8 % → 66,5 %, indem nur der Harness geändert wurde, nicht das Modell
Wer es nutzt	OpenAI (Codex), Stripe (über 1.000 PRs/Woche), Anthropic, Vercel
Kernkomponenten	Context Engineering, Architektur-Constraints, Tools/MCP, Sub-Agenten, Hooks, Selbstverifizierung

Was ist Harness Engineering?

Harness Engineering ist die Disziplin, Systeme, Tools, Constraints und Feedback-Schleifen um KI-Coding-Agenten herum aufzubauen, um sie zuverlässig und produktiv zu machen.

Der Begriff wurde von Mitchell Hashimoto (Mitbegründer von HashiCorp) geprägt und erlangte im Mainstream Aufmerksamkeit, als OpenAI Anfang 2026 ihren Codex-Artikel zu diesem Thema veröffentlichte.

Die Kernidee ist einfach:

Agent = Modell + Harness

Das Modell liefert die Intelligenz. Der Harness macht diese Intelligenz nützlich. Ein besserer Harness ist oft wichtiger als ein besseres Modell.

Warum es jetzt wichtig ist

Im Jahr 2025 haben alle Teams KI-Coding-Agenten eingeführt. Im Jahr 2026 sind die Gewinner-Teams diejenigen, die ihre Agenten-Umgebungen optimiert (engineered) haben – und nicht nur das beste Modell ausgewählt haben.

Mitchell Hashimotos Leitprinzip:

"Jedes Mal, wenn Sie feststellen, dass ein Agent einen Fehler macht, nehmen Sie sich die Zeit, eine Lösung zu entwickeln, damit der Agent diesen Fehler nie wieder macht."

Das ist kein Prompt Engineering. Es ist Systems Engineering für KI.

Der Beweis: Harness > Modell

LangChain führte ein kontrolliertes Experiment auf Terminal Bench 2.0 durch. Ohne das zugrunde liegende Modell zu ändern, verbesserten sie die Genauigkeit ihres Coding-Agenten von 52,8 % auf 66,5 % – eine Verbesserung um 26 % – allein durch die Optimierung des Harness.

Die Änderungen umfassten:

Bessere Kontext-Dateien (AGENTS.md)

Strukturierte Output-Constraints

Selbstverifizierungsschleifen

Tool-Optimierung

Dies bestätigt, was Praktiker bereits sagten: Die Obergrenze ist nicht das Modell. Es ist das, was man drumherum baut.

Die 7 Komponenten eines Harness

1. Context Engineering

Context Engineering ist das Fundament. Hier geben Sie dem Agenten eine Karte Ihrer Codebasis, Ihrer Konventionen und Ihrer Constraints.

In der Praxis:

CLAUDE.md / AGENTS.md Dateien im Root-Verzeichnis Ihres Repos
Verzeichnis-Karten und Architektur-Übersichten
Coding-Style-Regeln und Namenskonventionen

Wichtige Regel: Halten Sie Kontext-Dateien unter 60 Zeilen. Agenten verlieren bei langen Dokumenten den Fokus – geben Sie ihnen eine Karte, kein 1.000-seitiges Handbuch.

markdown

# CLAUDE.md example
## Architecture
- src/app/ — Next.js app router pages
- src/lib/ — shared utilities and API clients
- src/components/ — React components (co-located styles)

## Rules
- Use server components by default
- Never import from node_modules directly in components
- All API calls go through src/lib/api.ts

2. Architectural Constraints

Anstatt zu hoffen, dass der Agent die richtige Architektur wählt, erzwingen Sie diese.

Strenge Schichtenarchitekturen, validiert durch Linter
Strukturtests, die fehlschlagen, wenn Muster verletzt werden
Import-Beschränkungen über ESLint-Regeln oder benutzerdefinierte Skripte

Die Idee: den Lösungsraum einschränken, statt ihn zu erweitern. Weniger valide Optionen bedeuten weniger falsche Antworten.

3. Tools & MCP Servers

Agenten brauchen Tools, um effektiv zu sein. Die besten Harnesses stellen interne Werkzeuge bereit über:

CLI-Wrapper – bevorzugen Sie bekannte CLIs (git, docker, npm) gegenüber proprietären Tools
MCP (Model Context Protocol) Server – lassen Sie Agenten Ihre internen APIs, Datenbanken und Dienste aufrufen
Dateisystem-Zugriff – beschränkt auf spezifische Verzeichnisse, um versehentliche Schäden zu verhindern

Profi-Tipp: Bevorzugen Sie gut dokumentierte Standard-Tools. Ein Agent kann git perfekt nutzen, weil er über massive Trainingsdaten dazu verfügt. Ein spezielles CLI ohne Dokumentation wird ihn verwirren.

4. Sub-Agenten & Context Firewalls

Lang laufende Agenten-Sitzungen akkumulieren Kontext, was schließlich die Leistung verschlechtert – dies wird als Context Rot bezeichnet.

Die Lösung: Sub-Agenten mit Context Firewalls.

Zerlegen Sie komplexe Aufgaben in diskrete Teilaufgaben
Jede Teilaufgabe läuft in einer eigenen Sitzung mit frischem Kontext
Übergeben Sie nur strukturierte Ergebnisse zwischen Agenten, keine rohen Konversationen

Die von Anthropic veröffentlichte Architektur nutzt zwei Agenten:

Initializer Agent – plant die Arbeit, erstellt eine Feature-Liste
Coding Agent – führt jedes Feature isoliert aus

5. Hooks & Back-Pressure

Automatisierte Feedback-Schleifen, die Fehler abfangen, bevor sie sich potenzieren:

Pre-commit hooks – Type-Checking, Linting, Formatierung
Test-Runner – Agenten sollten nach jeder Änderung Tests ausführen
Build-Verifizierung – schnelles Fail-Fast bei defekten Builds

Kritische Design-Regel: Zeigen Sie Fehler deutlich an, aber geben Sie niemals ausführliche Erfolgsmeldungen in den Agenten-Kontext aus. Erfolge sollten leise sein. Fehler sollten laut sein.

6. Selbstverifizierungsschleifen

Zwingen Sie Agenten dazu, ihre eigene Arbeit zu verifizieren, bevor sie Aufgaben als abgeschlossen markieren:

Führen Sie die Test-Suite nach Änderungen aus
Überprüfen Sie, ob der Build erfolgreich ist
Verifizieren Sie, dass der Output der Spezifikation entspricht
Machen Sie einen Screenshot und vergleichen Sie ihn (bei UI-Arbeiten)

Dies ist der Unterschied zwischen einem Agenten, der "glaubt, fertig zu sein", und einem, der es tatsächlich ist.

7. Dokumentation des Fortschritts

Für lang laufende Aufgaben (über 30 Minuten):

Führen Sie eine Fortschrittsdatei, die abgeschlossene Schritte verfolgt
Committen Sie die Arbeit häufig, damit nachfolgende Sitzungen fortfahren können
Verwenden Sie strukturierte Aufgabenlisten, keine Freitext-Notizen

Auf diese Weise kann die nächste Sitzung dort weitermachen, wo die letzte aufgehört hat, falls eine Agenten-Sitzung abstürzt oder der Kontext ausgeht.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Ergebnisse aus der Praxis

OpenAI Codex Team

3 Ingenieure erstellten über 5 Monate hinweg eine Codebasis mit einer Million Zeilen mit null manuell geschriebenem Code. Sie erreichten durchschnittlich 3,5 gemergte PRs pro Ingenieur pro Tag – ein Durchsatz, der ohne einen ausgereiften Harness unmöglich ist.

Ihr Harness umfasste: strikte Commit-Konventionen, automatisierte Tests bei jedem PR und agenten-optimierte CI/CD-Pipelines.

Stripes "Minions"

Das interne System von Stripe produziert über 1.000 gemergte PRs pro Woche mithilfe von KI-Agenten. Ihr Harness beinhaltet:

Eng gefasste Aufgabendefinitionen
Obligatorische Code-Reviews durch Menschen
Automatisierte Regressionstests
Rollback-Automatisierung

Anthropics Zwei-Agenten-Architektur

Anthropic veröffentlichte ihren Ansatz für effektive Harnesses bei lang laufenden Agenten:

Strukturierte Feature-Listen als Übergabeformat zwischen Agenten
Git-basiertes Fortschrittstracking, damit Agenten nach Unterbrechungen fortfahren können
Explizite Exit-Kriterien, damit Agenten wissen, wann sie aufhören müssen

So fangen Sie an, Ihren Harness zu bauen

Schritt 1: Erstellen Sie Ihre Kontext-Datei

Fügen Sie eine CLAUDE.md (oder AGENTS.md) in Ihrem Projekt-Root hinzu:

markdown

# Project: [Your Project]

## Stack
[Framework, language, database, hosting]

## Architecture
[Directory structure with one-line descriptions]

## Rules
[5-10 hard rules the agent must follow]

## Common Tasks
[How to run tests, build, deploy]

Schritt 2: Fügen Sie strukturelle Constraints hinzu

bash

# Beispiel: ESLint-Regel, die direkte DB-Imports in Komponenten verhindert
# .eslintrc — no-restricted-imports rule

Richten Sie Pre-commit-Hooks ein, die Ihre Regeln automatisch erzwingen.

Schritt 3: Bauen Sie Verifizierungsschleifen

Stellen Sie sicher, dass Ihr Agent Folgendes kann:

Tests ausführen (npm test, pytest, etc.)

Typen prüfen (tsc --noEmit, mypy)

Linting durchführen (eslint ., ruff check)

Integrieren Sie diese in den Workflow Ihres Agenten, sodass sie nach jeder Änderung ausgeführt werden.

Schritt 4: Begrenzen Sie Agenten-Sitzungen

Geben Sie einem Agenten nicht Ihr gesamtes Backlog. Stattdessen:

Ein Feature pro Sitzung
Ein Bugfix pro Sitzung
Klare Akzeptanzkriterien für jede Aufgabe

Schritt 5: Iterieren Sie am Harness

Jedes Mal, wenn ein Agent einen Fehler macht:

Identifizieren Sie die Ursache
Fügen Sie eine Regel, einen Constraint oder einen Hook hinzu, der dies verhindert
Testen Sie den Fix

Mit der Zeit wird Ihr Harness besser und Ihre Agenten werden zuverlässiger – ohne das Modell zu aktualisieren.

Harness Engineering vs. Prompt Engineering

Prompt Engineering	Harness Engineering
Fokus	Was Sie dem Modell sagen	Was Sie um das Modell herum bauen
Beständigkeit	Fragil, modellabhängig	Robust, modellunabhängig
Kumulierung	Verbessert sich nicht mit der Zeit	Wird mit jeder Iteration besser
Umfang	Einzelne Interaktion	Gesamter Workflow
Art der Fähigkeit	Schreiben	Systems Engineering

Prompt Engineering ist immer noch nützlich, aber es ist nur ein kleiner Teil des Ganzen. Harness Engineering ist der Multiplikator.

Die neue Rolle: Der Harness Engineer

Das Engineering spaltet sich in zwei Hälften:

Aufbau der Umgebung – Erstellung von Struktur, Tools, Constraints und Feedback-Schleifen
Arbeitsmanagement – Planung, Review und Orchestrierung paralleler Agenten-Sitzungen

Die Ingenieure, die im Jahr 2026 erfolgreich sind, sind nicht diejenigen, die den meisten Code schreiben. Es sind diejenigen, die die besten Umgebungen bauen, in denen Agenten Code schreiben können.

Nicht zu verwechseln mit: Harness.io

Falls Sie nach "Harness Engineering" gesucht haben und die DevOps-Plattform meinten – Harness.io ist etwas völlig anderes. Es ist eine KI-gestützte CI/CD-Plattform, die (Stand Dezember 2025) mit 5,5 Mrd. USD bewertet wird und Continuous Integration, Delivery, Feature Flags, Cloud-Kostenmanagement und Sicherheitstests anbietet.

Obwohl Harness.io und Harness Engineering den Namen teilen, lösen sie unterschiedliche Probleme. Es gibt jedoch eine interessante Überschneidung: Das KI-gestützte DevOps von Harness.io ist wohl eine Anwendung von Harness-Engineering-Prinzipien auf die Deployment-Pipeline.

Fazit

Das Modell ist der Motor. Der Harness ist das Auto. Niemand gewinnt ein Rennen nur mit einem Motor.

Wenn Sie im Jahr 2026 KI-Coding-Agenten einsetzen und nicht in Ihren Harness investieren, lassen Sie den Großteil des Wertes ungenutzt. Beginnen Sie mit einer Kontext-Datei, fügen Sie Constraints hinzu, bauen Sie Verifizierungsschleifen und iterieren Sie jedes Mal, wenn etwas schiefgeht.

Die Teams, die am schnellsten liefern, nutzen keine besseren Modelle. Sie nutzen bessere Harnesses.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Zurück zum Blog

26. März 2026·Y Build Team

Harness Engineering: Systeme um KI-Agenten herum bauen (2026)

Harness EngineeringKI-AgentenCoding-AgentenClaude CodeCodexDevOpsSoftware Engineering2026

TL;DR

Konzept	Zusammenfassung
Formel	Agent = Modell + Harness
Was ist ein Harness?	Alles um das KI-Modell herum: Kontext, Constraints, Tools, Verifizierungsschleifen
Zentrale Erkenntnis	LangChain verbesserte die Agent-Genauigkeit von 52,8 % → 66,5 %, indem nur der Harness geändert wurde, nicht das Modell
Wer es nutzt	OpenAI (Codex), Stripe (über 1.000 PRs/Woche), Anthropic, Vercel
Kernkomponenten	Context Engineering, Architektur-Constraints, Tools/MCP, Sub-Agenten, Hooks, Selbstverifizierung

Was ist Harness Engineering?

Harness Engineering ist die Disziplin, Systeme, Tools, Constraints und Feedback-Schleifen um KI-Coding-Agenten herum aufzubauen, um sie zuverlässig und produktiv zu machen.

Die Kernidee ist einfach:

Agent = Modell + Harness

Das Modell liefert die Intelligenz. Der Harness macht diese Intelligenz nützlich. Ein besserer Harness ist oft wichtiger als ein besseres Modell.

Warum es jetzt wichtig ist

Mitchell Hashimotos Leitprinzip:

"Jedes Mal, wenn Sie feststellen, dass ein Agent einen Fehler macht, nehmen Sie sich die Zeit, eine Lösung zu entwickeln, damit der Agent diesen Fehler nie wieder macht."

Das ist kein Prompt Engineering. Es ist Systems Engineering für KI.

Der Beweis: Harness > Modell

Die Änderungen umfassten:

Bessere Kontext-Dateien (AGENTS.md)

Strukturierte Output-Constraints

Selbstverifizierungsschleifen

Tool-Optimierung

Dies bestätigt, was Praktiker bereits sagten: Die Obergrenze ist nicht das Modell. Es ist das, was man drumherum baut.

Die 7 Komponenten eines Harness

1. Context Engineering

Context Engineering ist das Fundament. Hier geben Sie dem Agenten eine Karte Ihrer Codebasis, Ihrer Konventionen und Ihrer Constraints.

In der Praxis:

CLAUDE.md / AGENTS.md Dateien im Root-Verzeichnis Ihres Repos
Verzeichnis-Karten und Architektur-Übersichten
Coding-Style-Regeln und Namenskonventionen

Wichtige Regel: Halten Sie Kontext-Dateien unter 60 Zeilen. Agenten verlieren bei langen Dokumenten den Fokus – geben Sie ihnen eine Karte, kein 1.000-seitiges Handbuch.

markdown

# CLAUDE.md example
## Architecture
- src/app/ — Next.js app router pages
- src/lib/ — shared utilities and API clients
- src/components/ — React components (co-located styles)

## Rules
- Use server components by default
- Never import from node_modules directly in components
- All API calls go through src/lib/api.ts

2. Architectural Constraints

Anstatt zu hoffen, dass der Agent die richtige Architektur wählt, erzwingen Sie diese.

Strenge Schichtenarchitekturen, validiert durch Linter
Strukturtests, die fehlschlagen, wenn Muster verletzt werden
Import-Beschränkungen über ESLint-Regeln oder benutzerdefinierte Skripte

Die Idee: den Lösungsraum einschränken, statt ihn zu erweitern. Weniger valide Optionen bedeuten weniger falsche Antworten.

3. Tools & MCP Servers

Agenten brauchen Tools, um effektiv zu sein. Die besten Harnesses stellen interne Werkzeuge bereit über:

CLI-Wrapper – bevorzugen Sie bekannte CLIs (git, docker, npm) gegenüber proprietären Tools
MCP (Model Context Protocol) Server – lassen Sie Agenten Ihre internen APIs, Datenbanken und Dienste aufrufen
Dateisystem-Zugriff – beschränkt auf spezifische Verzeichnisse, um versehentliche Schäden zu verhindern

4. Sub-Agenten & Context Firewalls

Lang laufende Agenten-Sitzungen akkumulieren Kontext, was schließlich die Leistung verschlechtert – dies wird als Context Rot bezeichnet.

Die Lösung: Sub-Agenten mit Context Firewalls.

Zerlegen Sie komplexe Aufgaben in diskrete Teilaufgaben
Jede Teilaufgabe läuft in einer eigenen Sitzung mit frischem Kontext
Übergeben Sie nur strukturierte Ergebnisse zwischen Agenten, keine rohen Konversationen

Die von Anthropic veröffentlichte Architektur nutzt zwei Agenten:

Initializer Agent – plant die Arbeit, erstellt eine Feature-Liste
Coding Agent – führt jedes Feature isoliert aus

5. Hooks & Back-Pressure

Automatisierte Feedback-Schleifen, die Fehler abfangen, bevor sie sich potenzieren:

Pre-commit hooks – Type-Checking, Linting, Formatierung
Test-Runner – Agenten sollten nach jeder Änderung Tests ausführen
Build-Verifizierung – schnelles Fail-Fast bei defekten Builds

Kritische Design-Regel: Zeigen Sie Fehler deutlich an, aber geben Sie niemals ausführliche Erfolgsmeldungen in den Agenten-Kontext aus. Erfolge sollten leise sein. Fehler sollten laut sein.

6. Selbstverifizierungsschleifen

Zwingen Sie Agenten dazu, ihre eigene Arbeit zu verifizieren, bevor sie Aufgaben als abgeschlossen markieren:

Führen Sie die Test-Suite nach Änderungen aus
Überprüfen Sie, ob der Build erfolgreich ist
Verifizieren Sie, dass der Output der Spezifikation entspricht
Machen Sie einen Screenshot und vergleichen Sie ihn (bei UI-Arbeiten)

Dies ist der Unterschied zwischen einem Agenten, der "glaubt, fertig zu sein", und einem, der es tatsächlich ist.

7. Dokumentation des Fortschritts

Für lang laufende Aufgaben (über 30 Minuten):

Führen Sie eine Fortschrittsdatei, die abgeschlossene Schritte verfolgt
Committen Sie die Arbeit häufig, damit nachfolgende Sitzungen fortfahren können
Verwenden Sie strukturierte Aufgabenlisten, keine Freitext-Notizen

Auf diese Weise kann die nächste Sitzung dort weitermachen, wo die letzte aufgehört hat, falls eine Agenten-Sitzung abstürzt oder der Kontext ausgeht.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Ergebnisse aus der Praxis

OpenAI Codex Team

Ihr Harness umfasste: strikte Commit-Konventionen, automatisierte Tests bei jedem PR und agenten-optimierte CI/CD-Pipelines.

Stripes "Minions"

Das interne System von Stripe produziert über 1.000 gemergte PRs pro Woche mithilfe von KI-Agenten. Ihr Harness beinhaltet:

Eng gefasste Aufgabendefinitionen
Obligatorische Code-Reviews durch Menschen
Automatisierte Regressionstests
Rollback-Automatisierung

Anthropics Zwei-Agenten-Architektur

Anthropic veröffentlichte ihren Ansatz für effektive Harnesses bei lang laufenden Agenten:

Strukturierte Feature-Listen als Übergabeformat zwischen Agenten
Git-basiertes Fortschrittstracking, damit Agenten nach Unterbrechungen fortfahren können
Explizite Exit-Kriterien, damit Agenten wissen, wann sie aufhören müssen

So fangen Sie an, Ihren Harness zu bauen

Schritt 1: Erstellen Sie Ihre Kontext-Datei

Fügen Sie eine CLAUDE.md (oder AGENTS.md) in Ihrem Projekt-Root hinzu:

markdown

# Project: [Your Project]

## Stack
[Framework, language, database, hosting]

## Architecture
[Directory structure with one-line descriptions]

## Rules
[5-10 hard rules the agent must follow]

## Common Tasks
[How to run tests, build, deploy]

Schritt 2: Fügen Sie strukturelle Constraints hinzu

bash

# Beispiel: ESLint-Regel, die direkte DB-Imports in Komponenten verhindert
# .eslintrc — no-restricted-imports rule

Richten Sie Pre-commit-Hooks ein, die Ihre Regeln automatisch erzwingen.

Schritt 3: Bauen Sie Verifizierungsschleifen

Stellen Sie sicher, dass Ihr Agent Folgendes kann:

Tests ausführen (npm test, pytest, etc.)

Typen prüfen (tsc --noEmit, mypy)

Linting durchführen (eslint ., ruff check)

Integrieren Sie diese in den Workflow Ihres Agenten, sodass sie nach jeder Änderung ausgeführt werden.

Schritt 4: Begrenzen Sie Agenten-Sitzungen

Geben Sie einem Agenten nicht Ihr gesamtes Backlog. Stattdessen:

Ein Feature pro Sitzung
Ein Bugfix pro Sitzung
Klare Akzeptanzkriterien für jede Aufgabe

Schritt 5: Iterieren Sie am Harness

Jedes Mal, wenn ein Agent einen Fehler macht:

Identifizieren Sie die Ursache
Fügen Sie eine Regel, einen Constraint oder einen Hook hinzu, der dies verhindert
Testen Sie den Fix

Mit der Zeit wird Ihr Harness besser und Ihre Agenten werden zuverlässiger – ohne das Modell zu aktualisieren.

Harness Engineering vs. Prompt Engineering

Prompt Engineering	Harness Engineering
Fokus	Was Sie dem Modell sagen	Was Sie um das Modell herum bauen
Beständigkeit	Fragil, modellabhängig	Robust, modellunabhängig
Kumulierung	Verbessert sich nicht mit der Zeit	Wird mit jeder Iteration besser
Umfang	Einzelne Interaktion	Gesamter Workflow
Art der Fähigkeit	Schreiben	Systems Engineering

Prompt Engineering ist immer noch nützlich, aber es ist nur ein kleiner Teil des Ganzen. Harness Engineering ist der Multiplikator.

Die neue Rolle: Der Harness Engineer

Das Engineering spaltet sich in zwei Hälften:

Aufbau der Umgebung – Erstellung von Struktur, Tools, Constraints und Feedback-Schleifen
Arbeitsmanagement – Planung, Review und Orchestrierung paralleler Agenten-Sitzungen

Die Ingenieure, die im Jahr 2026 erfolgreich sind, sind nicht diejenigen, die den meisten Code schreiben. Es sind diejenigen, die die besten Umgebungen bauen, in denen Agenten Code schreiben können.

Nicht zu verwechseln mit: Harness.io

Fazit

Das Modell ist der Motor. Der Harness ist das Auto. Niemand gewinnt ein Rennen nur mit einem Motor.

Die Teams, die am schnellsten liefern, nutzen keine besseren Modelle. Sie nutzen bessere Harnesses.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.