26 березня 2026 р.·Y Build Team

Harness Engineering: Побудова систем навколо AI-агентів (2026)

Harness engineering — це те, як топові команди роблять ШІ-агентів для кодингу надійними. Дізнайтеся формулу Агент = Модель + Harness, основні компоненти та реальні результати від OpenAI, Stripe та Anthropic.

Harness EngineeringAI-агентиАгенти для кодингуClaude CodeCodexDevOpsПрограмна інженерія2026

TL;DR

Концепція	Підсумок
Формула	Агент = Модель + Harness
Що таке harness?	Все, що оточує модель ШІ: контекст, обмеження, інструменти, цикли перевірки
Ключовий інсайт	LangChain покращив точність агента з 52.8% → 66.5%, змінивши лише harness, а не модель
Хто це використовує	OpenAI (Codex), Stripe (1,000+ PR/тиждень), Anthropic, Vercel
Основні компоненти	Контекстна інженерія, архітектурні обмеження, інструменти/MCP, субагенти, хуки, самоперевірка

Що таке Harness Engineering?

Harness engineering — це дисципліна побудови систем, інструментів, обмежень та циклів зворотного зв'язку навколо ШІ-агентів для кодингу, щоб зробити їх надійними та продуктивними.

Термін був введений Мітчеллом Хашимото (співзасновником HashiCorp) і набув широкої популярності, коли OpenAI опублікувала свою статтю про Codex на цю тему на початку 2026 року.

Основна ідея проста:

Агент = Модель + Harness

Модель забезпечує інтелект. Harness робить цей інтелект корисним. Кращий harness часто важливіший за кращу модель.

Чому це важливо зараз

У 2025 році кожна команда впровадила ШІ-агентів для написання коду. У 2026 році перемагають ті команди, які спроектували середовище для своїх агентів, а не просто обрали найкращу модель.

Керівний принцип Мітчелла Хашимото:

"Щоразу, коли ви виявляєте, що агент припускається помилки, ви витрачаєте час на розробку рішення, яке гарантує, що агент ніколи більше не зробить цієї помилки."

Це не промпт-інженерія. Це системна інженерія для ШІ.

Докази: Harness > Модель

LangChain провели контрольований експеримент на Terminal Bench 2.0. Не змінюючи базову модель, вони покращили точність свого агента з 52.8% до 66.5% — покращення на 26% — лише шляхом вдосконалення harness.

Зміни включали:

Покращені файли контексту (AGENTS.md)

Обмеження структурованого виводу

Цикли самоперевірки

Оптимізація інструментів

Це підтверджує те, що практики говорять вже давно: стеля — це не модель. Це те, у що ви її вбудовуєте.

7 компонентів Harness

1. Контекстна інженерія

Контекстна інженерія — це фундамент. Саме тут ви надаєте агенту карту вашої кодової бази, ваші конвенції та обмеження.

На практиці:

Файли CLAUDE.md / AGENTS.md у корені вашого репозиторію
Карти директорій та архітектурні огляди
Правила стилю коду та конвенції іменування

Ключове правило: Тримайте файли контексту в межах 60 рядків. Агенти втрачають фокус у довгих документах — дайте їм карту, а не інструкцію на 1000 сторінок.

markdown

# CLAUDE.md example
## Architecture
- src/app/ — Next.js app router pages
- src/lib/ — shared utilities and API clients
- src/components/ — React components (co-located styles)

## Rules
- Use server components by default
- Never import from node_modules directly in components
- All API calls go through src/lib/api.ts

2. Архітектурні обмеження

Замість того, щоб сподіватися, що агент обере правильну архітектуру, нав'яжіть її.

Жорсткі шаруваті архітектури, перевірені лінтерами
Структурні тести, які не проходять, якщо порушені патерни
Обмеження імпорту через правила ESLint або власні скрипти

Ідея: обмежити простір рішень, а не розширювати його. Менше валідних варіантів означає менше неправильних відповідей.

3. Інструменти та MCP-сервери

Агентам потрібні інструменти, щоб бути ефективними. Найкращі системи harness надають доступ до внутрішніх інструментів через:

CLI-обгортки — віддавайте перевагу відомим CLI (git, docker, npm), а не власним інструментам
MCP (Model Context Protocol) сервери — дозволяйте агентам викликати ваші внутрішні API, бази даних та сервіси
Доступ до файлової системи — обмежений конкретними директоріями для запобігання випадковим пошкодженням

Порада: Використовуйте добре задокументовані стандартні інструменти. Агент може ідеально використовувати git, тому що має величезну кількість даних для навчання на ньому. Кастомний CLI без документації зб'є його з пантелику.

4. Субагенти та контекстні фаєрволи

Тривалі сесії агентів накопичують контекст, що з часом погіршує продуктивність — це називається деградацією контексту (context rot).

Рішення: субагенти з контекстними фаєрволами.

Розбивайте складні завдання на окремі підзавдання
Кожне підзавдання виконується у власній сесії зі свіжим контекстом
Передавайте між агентами лише структуровані результати, а не всю переписку

Опублікована архітектура Anthropic використовує двох агентів:

Initializer Agent — планує роботу, створює список функцій
Coding Agent — реалізує кожну функцію окремо

5. Хуки та зворотний тиск (Back-Pressure)

Автоматизовані цикли зворотного зв'язку, які виловлюють помилки до того, як вони накопичаться:

Pre-commit хуки — перевірка типів, лінтинг, форматування
Test runners — агенти повинні запускати тести після кожної зміни
Build verification — швидке завершення роботи при помилках збірки

Критичне правило проектування: Чітко виводьте повідомлення про помилки, але ніколи не скидайте детальні звіти про успіх у контекст агента. Успіх має бути тихим. Помилки мають бути гучними.

6. Цикли самоперевірки

Змушуйте агентів перевіряти власну роботу перед тим, як позначати завдання як виконане:

Запуск тестів після змін
Перевірка успішності збірки
Перевірка відповідності результату специфікації
Скріншот та порівняння (для завдань з UI)

Це різниця між агентом, який "думає, що він закінчив", і тим, який справді закінчив.

7. Документація прогресу

Для тривалих завдань (30+ хвилин):

Ведіть файл прогресу, який відстежує виконані кроки
Робіть коміти часто, щоб наступні сесії могли продовжити роботу
Використовуйте структуровані списки завдань, а не вільні нотатки

Таким чином, якщо сесія агента перерветься або вичерпається контекст, наступна сесія почне з того місця, де зупинилася попередня.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Реальні результати

Команда OpenAI Codex

3 інженери створили мільйон рядків коду без жодного рядка, написаного вручну, протягом 5 місяців. У середньому вони робили 3.5 злитих PR на інженера в день — пропускна здатність, яка неможлива без зрілого harness.

Їхній harness включав: суворі конвенції комітів, автоматизоване тестування кожного PR та CI/CD пайплайни, адаптовані для агентів.

Stripe "Minions"

Внутрішня система Stripe генерує понад 1,000 злитих PR на тиждень за допомогою ШІ-агентів. Їхній harness включає:

Чітко визначені межі завдань
Обов'язкове код-рев'ю людьми
Автоматизоване регресійне тестування
Автоматизація відкатів (rollbacks)

Двоагентна архітектура Anthropic

Anthropic опублікувала свій підхід до ефективних harness для тривалих завдань:

Структуровані списки функцій як формат передачі завдань між агентами
Відстеження прогресу на основі Git, щоб агенти могли відновити роботу після переривання
Чіткі критерії виходу, щоб агенти знали, коли зупинитися

Як почати будувати свій Harness

Крок 1: Створіть файл контексту

Додайте CLAUDE.md (або AGENTS.md) у корінь вашого проекту:

markdown

# Project: [Назва вашого проекту]

## Stack
[Фреймворк, мова, база даних, хостинг]

## Architecture
[Структура директорій з короткими описами]

## Rules
[5-10 суворих правил, яких агент повинен дотримуватися]

## Common Tasks
[Як запускати тести, збірку, деплой]

Крок 2: Додайте структурні обмеження

bash

# Приклад: правило ESLint, що забороняє прямий імпорт БД у компоненти
# .eslintrc — правило no-restricted-imports

Налаштуйте pre-commit хуки, які автоматично перевіряють ваші правила.

Крок 3: Побудуйте цикли перевірки

Переконайтеся, що ваш агент може:

Запускати тести (npm test, pytest тощо)

Перевіряти типи (tsc --noEmit, mypy)

Лінтувати (eslint ., ruff check)

Інтегруйте це у воркфлоу вашого агента, щоб вони запускалися після кожної зміни.

Крок 4: Обмежте сесії агента

Не давайте агенту весь ваш беклог. Замість цього:

Одна функція на сесію
Одне виправлення багу на сесію
Чіткі критерії прийняття для кожного завдання

Крок 5: Ітеруйте Harness

Щоразу, коли агент припускається помилки:

Визначте першопричину
Додайте правило, обмеження або хук, який запобігає цьому
Перевірте виправлення

З часом ваш harness стає кращим, а ваші агенти — надійнішими, без оновлення самої моделі.

Harness Engineering vs. Prompt Engineering

Prompt Engineering	Harness Engineering
Фокус	Що ви говорите моделі	Що ви будуєте навколо моделі
Стійкість	Крихка, залежить від моделі	Надійна, не залежить від моделі
Накопичення	Не покращується з часом	Стає кращим з кожною ітерацією
Масштаб	Окрема взаємодія	Весь робочий процес
Тип навички	Написання текстів	Системна інженерія

Промпт-інженерія все ще корисна, але це лише мала частина картини. Harness engineering — це мультиплікатор.

Нова роль: Harness-інженер

Інженерія розділяється на дві частини:

Побудова середовища — створення структури, інструментів, обмежень та циклів зворотного зв'язку
Управління роботою — планування, рев'ю та оркестрація паралельних сесій агентів

Інженери, які процвітатимуть у 2026 році, — це не ті, хто пише найбільше коду. Це ті, хто створює найкращі середовища для того, щоб код писали агенти.

Не плутати з: Harness.io

Якщо ви шукали "Harness Engineering", маючи на увазі DevOps-платформу — Harness.io це зовсім інша річ. Це CI/CD платформа на базі ШІ, що оцінюється у $5.5 млрд (станом на грудень 2025 року), яка пропонує безперервну інтеграцію, доставку, фіча-флаги, управління хмарними витратами та тестування безпеки.

Хоча Harness.io та harness engineering мають спільну назву, вони вирішують різні проблеми. Хоча є цікавий перетин: AI-DevOps від Harness.io можна вважати застосуванням принципів harness engineering до пайплайну розгортання.

Підсумок

Модель — це двигун. Harness — це автомобіль. Ніхто не виграє гонку, маючи лише двигун.

Якщо ви використовуєте ШІ-агентів для кодингу у 2026 році і не інвестуєте у свій harness, ви втрачаєте більшу частину вигоди. Почніть із файлу контексту, додайте обмеження, побудуйте цикли перевірки та ітеруйте щоразу, коли щось ламається.

Команди, які шиплять найшвидше, не використовують кращі моделі. Вони використовують кращі harnesses.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Назад до блогу

26 березня 2026 р.·Y Build Team

Harness Engineering: Побудова систем навколо AI-агентів (2026)

Harness EngineeringAI-агентиАгенти для кодингуClaude CodeCodexDevOpsПрограмна інженерія2026

TL;DR

Концепція	Підсумок
Формула	Агент = Модель + Harness
Що таке harness?	Все, що оточує модель ШІ: контекст, обмеження, інструменти, цикли перевірки
Ключовий інсайт	LangChain покращив точність агента з 52.8% → 66.5%, змінивши лише harness, а не модель
Хто це використовує	OpenAI (Codex), Stripe (1,000+ PR/тиждень), Anthropic, Vercel
Основні компоненти	Контекстна інженерія, архітектурні обмеження, інструменти/MCP, субагенти, хуки, самоперевірка

Що таке Harness Engineering?

Основна ідея проста:

Агент = Модель + Harness

Модель забезпечує інтелект. Harness робить цей інтелект корисним. Кращий harness часто важливіший за кращу модель.

Чому це важливо зараз

Керівний принцип Мітчелла Хашимото:

"Щоразу, коли ви виявляєте, що агент припускається помилки, ви витрачаєте час на розробку рішення, яке гарантує, що агент ніколи більше не зробить цієї помилки."

Це не промпт-інженерія. Це системна інженерія для ШІ.

Докази: Harness > Модель

Зміни включали:

Покращені файли контексту (AGENTS.md)

Обмеження структурованого виводу

Цикли самоперевірки

Оптимізація інструментів

Це підтверджує те, що практики говорять вже давно: стеля — це не модель. Це те, у що ви її вбудовуєте.

7 компонентів Harness

1. Контекстна інженерія

На практиці:

Файли CLAUDE.md / AGENTS.md у корені вашого репозиторію
Карти директорій та архітектурні огляди
Правила стилю коду та конвенції іменування

markdown

# CLAUDE.md example
## Architecture
- src/app/ — Next.js app router pages
- src/lib/ — shared utilities and API clients
- src/components/ — React components (co-located styles)

## Rules
- Use server components by default
- Never import from node_modules directly in components
- All API calls go through src/lib/api.ts

2. Архітектурні обмеження

Замість того, щоб сподіватися, що агент обере правильну архітектуру, нав'яжіть її.

Жорсткі шаруваті архітектури, перевірені лінтерами
Структурні тести, які не проходять, якщо порушені патерни
Обмеження імпорту через правила ESLint або власні скрипти

3. Інструменти та MCP-сервери

CLI-обгортки — віддавайте перевагу відомим CLI (git, docker, npm), а не власним інструментам
MCP (Model Context Protocol) сервери — дозволяйте агентам викликати ваші внутрішні API, бази даних та сервіси
Доступ до файлової системи — обмежений конкретними директоріями для запобігання випадковим пошкодженням

4. Субагенти та контекстні фаєрволи

Рішення: субагенти з контекстними фаєрволами.

Розбивайте складні завдання на окремі підзавдання
Кожне підзавдання виконується у власній сесії зі свіжим контекстом
Передавайте між агентами лише структуровані результати, а не всю переписку

Опублікована архітектура Anthropic використовує двох агентів:

Initializer Agent — планує роботу, створює список функцій
Coding Agent — реалізує кожну функцію окремо

5. Хуки та зворотний тиск (Back-Pressure)

Автоматизовані цикли зворотного зв'язку, які виловлюють помилки до того, як вони накопичаться:

Pre-commit хуки — перевірка типів, лінтинг, форматування
Test runners — агенти повинні запускати тести після кожної зміни
Build verification — швидке завершення роботи при помилках збірки

6. Цикли самоперевірки

Змушуйте агентів перевіряти власну роботу перед тим, як позначати завдання як виконане:

Запуск тестів після змін
Перевірка успішності збірки
Перевірка відповідності результату специфікації
Скріншот та порівняння (для завдань з UI)

Це різниця між агентом, який "думає, що він закінчив", і тим, який справді закінчив.

7. Документація прогресу

Для тривалих завдань (30+ хвилин):

Ведіть файл прогресу, який відстежує виконані кроки
Робіть коміти часто, щоб наступні сесії могли продовжити роботу
Використовуйте структуровані списки завдань, а не вільні нотатки

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Реальні результати

Команда OpenAI Codex

Stripe "Minions"

Внутрішня система Stripe генерує понад 1,000 злитих PR на тиждень за допомогою ШІ-агентів. Їхній harness включає:

Чітко визначені межі завдань
Обов'язкове код-рев'ю людьми
Автоматизоване регресійне тестування
Автоматизація відкатів (rollbacks)

Двоагентна архітектура Anthropic

Anthropic опублікувала свій підхід до ефективних harness для тривалих завдань:

Структуровані списки функцій як формат передачі завдань між агентами
Відстеження прогресу на основі Git, щоб агенти могли відновити роботу після переривання
Чіткі критерії виходу, щоб агенти знали, коли зупинитися

Як почати будувати свій Harness

Крок 1: Створіть файл контексту

Додайте CLAUDE.md (або AGENTS.md) у корінь вашого проекту:

markdown

# Project: [Назва вашого проекту]

## Stack
[Фреймворк, мова, база даних, хостинг]

## Architecture
[Структура директорій з короткими описами]

## Rules
[5-10 суворих правил, яких агент повинен дотримуватися]

## Common Tasks
[Як запускати тести, збірку, деплой]

Крок 2: Додайте структурні обмеження

bash

# Приклад: правило ESLint, що забороняє прямий імпорт БД у компоненти
# .eslintrc — правило no-restricted-imports

Налаштуйте pre-commit хуки, які автоматично перевіряють ваші правила.

Крок 3: Побудуйте цикли перевірки

Переконайтеся, що ваш агент може:

Запускати тести (npm test, pytest тощо)

Перевіряти типи (tsc --noEmit, mypy)

Лінтувати (eslint ., ruff check)

Інтегруйте це у воркфлоу вашого агента, щоб вони запускалися після кожної зміни.

Крок 4: Обмежте сесії агента

Не давайте агенту весь ваш беклог. Замість цього:

Одна функція на сесію
Одне виправлення багу на сесію
Чіткі критерії прийняття для кожного завдання

Крок 5: Ітеруйте Harness

Щоразу, коли агент припускається помилки:

Визначте першопричину
Додайте правило, обмеження або хук, який запобігає цьому
Перевірте виправлення

З часом ваш harness стає кращим, а ваші агенти — надійнішими, без оновлення самої моделі.

Harness Engineering vs. Prompt Engineering

Prompt Engineering	Harness Engineering
Фокус	Що ви говорите моделі	Що ви будуєте навколо моделі
Стійкість	Крихка, залежить від моделі	Надійна, не залежить від моделі
Накопичення	Не покращується з часом	Стає кращим з кожною ітерацією
Масштаб	Окрема взаємодія	Весь робочий процес
Тип навички	Написання текстів	Системна інженерія

Промпт-інженерія все ще корисна, але це лише мала частина картини. Harness engineering — це мультиплікатор.

Нова роль: Harness-інженер

Інженерія розділяється на дві частини:

Побудова середовища — створення структури, інструментів, обмежень та циклів зворотного зв'язку
Управління роботою — планування, рев'ю та оркестрація паралельних сесій агентів

Не плутати з: Harness.io

Підсумок

Модель — це двигун. Harness — це автомобіль. Ніхто не виграє гонку, маючи лише двигун.

Команди, які шиплять найшвидше, не використовують кращі моделі. Вони використовують кращі harnesses.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.