하네스 엔지니어링: AI 에이전트 기반의 시스템 구축 (2026)

TL;DR

개념	요약
공식	Agent = Model + Harness
하네스란 무엇인가?	AI 모델 주변의 모든 것: 컨텍스트, 제약 조건, 도구, 검증 루프
핵심 인사이트	LangChain은 모델을 바꾸지 않고 하네스만 개선하여 에이전트 정확도를 52.8%에서 66.5%로 향상시킴
사용 사례	OpenAI (Codex), Stripe (주당 1,000개 이상의 PR), Anthropic, Vercel
핵심 구성 요소	컨텍스트 엔지니어링, 아키텍처 제약 조건, 도구/MCP, 서브 에이전트, 훅, 자체 검증

하네스 엔지니어링이란 무엇인가?

하네스 엔지니어링(Harness engineering)은 AI 코딩 에이전트를 신뢰할 수 있고 생산적으로 만들기 위해 에이전트 주변의 시스템, 도구, 제약 조건 및 피드백 루프를 구축하는 학문입니다.

이 용어는 Mitchell Hashimoto(HashiCorp 공동 창업자)가 만들었으며, 2026년 초 OpenAI가 이 주제에 대한 Codex 아티클을 발표하면서 대중의 관심을 끌기 시작했습니다.

핵심 아이디어는 간단합니다.

Agent = Model + Harness

모델은 지능을 제공합니다. 하네스는 그 지능을 유용하게 만듭니다. 종종 더 나은 모델보다 더 나은 하네스가 더 중요합니다.

지금 이것이 중요한 이유

2025년에는 모든 팀이 AI 코딩 에이전트를 도입했습니다. 2026년의 승리하는 팀은 단순히 최고의 모델을 선택한 팀이 아니라, 에이전트 환경을 엔지니어링한 팀들입니다.

Mitchell Hashimoto의 가이드 원칙은 다음과 같습니다.

"에이전트가 실수를 할 때마다, 에이전트가 다시는 그 실수를 반복하지 않도록 엔지니어링 솔루션을 구축하는 데 시간을 투자하십시오."

이것은 프롬프트 엔지니어링이 아닙니다. AI를 위한 시스템 엔지니어링입니다.

증거: 하네스 > 모델

LangChain은 Terminal Bench 2.0에서 대조 실험을 진행했습니다. 기본 모델을 변경하지 않고 하네스만 개선함으로써 코딩 에이전트의 정확도를 52.8%에서 66.5%로 26% 향상시켰습니다.

변경 사항은 다음과 같습니다:

더 나은 컨텍스트 파일 (AGENTS.md)

구조화된 출력 제약 조건

자체 검증 루프

도구 최적화

이는 실무자들이 말해온 바를 확인시켜 줍니다. 한계는 모델이 아니라, 모델 주변에 무엇을 배치하느냐에 달려 있습니다.

하네스의 7가지 구성 요소

1. 컨텍스트 엔지니어링 (Context Engineering)

컨텍스트 엔지니어링은 기초입니다. 에이전트에게 코드베이스의 지도, 관습 및 제약 조건을 제공하는 단계입니다.

실제 적용:

리포지토리 루트의 CLAUDE.md / AGENTS.md 파일
디렉토리 맵 및 아키텍처 개요
코딩 스타일 규칙 및 명명 규칙

핵심 규칙: 컨텍스트 파일을 60행 이내로 유지하십시오. 에이전트는 문서가 길어지면 집중력을 잃습니다. 1,000페이지 분량의 매뉴얼이 아니라 지도를 제공해야 합니다.

markdown

# CLAUDE.md example
## Architecture
- src/app/ — Next.js app router pages
- src/lib/ — shared utilities and API clients
- src/components/ — React components (co-located styles)

## Rules
- Use server components by default
- Never import from node_modules directly in components
- All API calls go through src/lib/api.ts

2. 아키텍처 제약 조건 (Architectural Constraints)

에이전트가 올바른 아키텍처를 선택하기를 바라는 대신, 이를 강제하십시오.

린터(Linter)로 검증되는 엄격한 계층형 아키텍처
패턴 위반 시 실패하는 구조적 테스트
ESLint 규칙이나 커스텀 스크립트를 통한 임포트 제한

핵심 아이디어: 솔루션 공간을 확장하기보다 제한하십시오. 유효한 옵션이 적을수록 잘못된 답이 나올 확률도 줄어듭니다.

3. 도구 및 MCP 서버 (Tools & MCP Servers)

에이전트가 효과적으로 작동하려면 도구가 필요합니다. 최상의 하네스는 다음을 통해 내부 툴링을 노출합니다.

CLI 래퍼 — 커스텀 도구보다는 잘 알려진 CLI(git, docker, npm)를 선호하십시오.
MCP (Model Context Protocol) 서버 — 에이전트가 내부 API, 데이터베이스 및 서비스에 접근할 수 있게 합니다.
파일 시스템 액세스 — 우발적인 피해를 방지하기 위해 특정 디렉토리로 범위를 제한하십시오.

전문가 팁: 문서화가 잘 된 표준 도구를 선호하십시오. 에이전트는 방대한 학습 데이터 덕분에 git을 완벽하게 사용할 수 있습니다. 문서가 없는 커스텀 CLI는 에이전트를 혼란스럽게 할 뿐입니다.

4. 서브 에이전트 및 컨텍스트 방화벽 (Sub-Agents & Context Firewalls)

장시간 실행되는 에이전트 세션은 컨텍스트가 누적되어 결국 성능이 저하되는데, 이를 컨텍스트 부패(context rot)라고 합니다.

해결책은 컨텍스트 방화벽을 갖춘 서브 에이전트입니다.

복잡한 작업을 별개의 하위 작업으로 분할
각 하위 작업은 새로운 컨텍스트와 함께 고유한 세션에서 실행
에이전트 간에는 가공되지 않은 대화가 아닌 구조화된 결과만 전달

Anthropic이 발표한 아키텍처는 두 가지 에이전트를 사용합니다.

Initializer Agent — 작업을 계획하고 기능 목록을 생성
Coding Agent — 각 기능을 격리된 상태에서 실행

5. 훅 및 백프레셔 (Hooks & Back-Pressure)

실수가 누적되기 전에 잡아내는 자동화된 피드백 루프:

Pre-commit 훅 — 타입 체크, 린팅, 포맷팅
테스트 러너 — 에이전트는 모든 변경 후에 테스트를 실행해야 함
빌드 검증 — 깨진 빌드에 대해 신속하게 실패 처리

중요 설계 규칙: 실패는 명확하게 표출하되, 성공 결과물은 에이전트 컨텍스트에 절대 쏟아붓지 마십시오. 성공은 조용해야 하고, 실패는 시끄러워야 합니다.

6. 자체 검증 루프 (Self-Verification Loops)

에이전트가 작업을 완료로 표시하기 전에 스스로 작업을 검증하도록 강제하십시오.

변경 후 테스트 스위트 실행
빌드 통과 여부 확인
출력이 사양과 일치하는지 확인
스크린샷을 찍어 비교(UI 작업의 경우)

이것이 "다 했다고 생각하는" 에이전트와 실제로 "다 한" 에이전트의 차이입니다.

7. 진행 상태 문서화 (Progress Documentation)

30분 이상 소요되는 장기 실행 작업의 경우:

완료된 단계를 추적하는 진행 상황 파일 유지
후속 세션이 이어갈 수 있도록 자주 커밋
자유 형식의 메모가 아닌 구조화된 작업 목록 사용

이렇게 하면 에이전트 세션이 중단되거나 컨텍스트가 부족해지더라도, 다음 세션이 지난 세션이 멈춘 지점부터 다시 시작할 수 있습니다.

실제 사례 연구

OpenAI Codex 팀

3명의 엔지니어가 5개월 동안 수동으로 작성한 코드 없이 백만 줄의 코드베이스를 구축했습니다. 엔지니어 1인당 하루 평균 3.5개의 PR을 병합했는데, 이는 성숙한 하네스 없이는 불가능한 처리량입니다.

이들의 하네스에는 엄격한 커밋 컨벤션, 모든 PR에 대한 자동화된 테스트, 에이전트 인식형 CI/CD 파이프라인이 포함되었습니다.

Stripe의 "Minions"

Stripe의 내부 시스템은 AI 에이전트를 사용하여 주당 1,000개 이상의 병합된 PR을 생성합니다. 그들의 하네스에는 다음이 포함됩니다.

좁게 제한된 작업 정의
인간에 의한 필수 코드 리뷰
자동화된 회귀 테스트
롤백 자동화

Anthropic의 2단계 에이전트 아키텍처

Anthropic은 장기 실행 에이전트를 위한 효과적인 하네스 접근 방식을 발표했습니다.

에이전트 간 전달 형식으로 사용되는 구조화된 기능 목록
중단 후 재개할 수 있도록 하는 Git 기반 진행 추적
에이전트가 멈출 시점을 알 수 있도록 하는 명시적 종료 기준

하네스 구축을 시작하는 방법

1단계: 컨텍스트 파일 생성

프로젝트 루트에 CLAUDE.md (또는 AGENTS.md)를 추가하십시오.

markdown

# Project: [Your Project]

## Stack
[Framework, language, database, hosting]

## Architecture
[Directory structure with one-line descriptions]

## Rules
[5-10 hard rules the agent must follow]

## Common Tasks
[How to run tests, build, deploy]

2단계: 구조적 제약 조건 추가

bash

# 예: 컴포넌트 내에서 직접 DB 임포트를 방지하는 ESLint 규칙
# .eslintrc — no-restricted-imports 규칙

규칙을 자동으로 강제하는 pre-commit 훅을 설정하십시오.

3단계: 빌드 검증 루프 구축

에이전트가 다음을 수행할 수 있는지 확인하십시오.

테스트 실행 (npm test, pytest 등)

타입 체크 (tsc --noEmit, mypy)

린트 (eslint ., ruff check)

이것들을 에이전트의 워크플로우에 연결하여 모든 변경 후에 실행되도록 하십시오.

4단계: 에이전트 세션 범위 지정

에이전트에게 전체 백로그를 주지 마십시오. 대신 다음을 따르십시오.

세션당 하나의 기능
세션당 하나의 버그 수정
각 작업에 대한 명확한 인수 조건

5단계: 하네스 반복 개선

에이전트가 실수를 할 때마다:

근본 원인 파악
이를 방지하는 규칙, 제약 조건 또는 훅 추가
수정 사항 테스트

시간이 지남에 따라 모델을 업그레이드하지 않고도 하네스가 개선되고 에이전트가 더 신뢰할 수 있게 됩니다.

하네스 엔지니어링 vs. 프롬프트 엔지니어링

프롬프트 엔지니어링	하네스 엔지니어링
중점	모델에게 말하는 내용	모델 주변에 구축하는 것
지속성	취약함, 모델 의존적	견고함, 모델에 독립적
복리 효과	시간이 지나도 개선되지 않음	반복할 때마다 더 좋아짐
범위	단일 상호작용	전체 워크플로우
기술 유형	작문	시스템 엔지니어링

프롬프트 엔지니어링은 여전히 유용하지만, 전체 그림의 작은 부분일 뿐입니다. 하네스 엔지니어링은 시너지 효과를 내는 승수입니다.

떠오르는 역할: 하네스 엔지니어

엔지니어링은 두 가지 영역으로 나뉘고 있습니다.

환경 구축 — 구조, 도구, 제약 조건 및 피드백 루프 생성
작업 관리 — 병렬 에이전트 세션 계획, 리뷰 및 오케스트레이션

2026년에 성공하는 엔지니어는 코드를 가장 많이 작성하는 사람이 아닙니다. 에이전트가 코드를 작성할 수 있는 최상의 환경을 구축하는 사람입니다.

혼동 주의: Harness.io

DevOps 플랫폼을 찾기 위해 "Harness Engineering"을 검색했다면 — Harness.io는 완전히 별개의 것입니다. 이는 2025년 12월 기준 가치가 55억 달러에 달하는 AI 기반 CI/CD 플랫폼으로, 지속적 통합, 배포, 기능 플래그, 클라우드 비용 관리 및 보안 테스트를 제공합니다.

Harness.io와 하네스 엔지니어링은 이름은 같지만 서로 다른 문제를 해결하고 있습니다. 다만 흥미로운 교차점이 있습니다. Harness.io의 AI 기반 DevOps는 하네스 엔지니어링 원칙을 배포 파이프라인에 적용한 사례라고 볼 수 있습니다.

결론

모델은 엔진이고 하네스는 자동차입니다. 엔진만으로는 경주에서 이길 수 없습니다.

2026년에 AI 코딩 에이전트를 사용하면서 하네스에 투자하지 않는다면, 대부분의 가치를 놓치고 있는 것입니다. 컨텍스트 파일에서 시작하여 제약 조건을 추가하고, 검증 루프를 구축하며, 무언가 망가질 때마다 반복 개선하십시오.

가장 빠르게 제품을 출시하는 팀은 더 나은 모델을 사용하는 팀이 아닙니다. 더 나은 하네스를 사용하는 팀입니다.

TL;DR

개념	요약
공식	Agent = Model + Harness
하네스란 무엇인가?	AI 모델 주변의 모든 것: 컨텍스트, 제약 조건, 도구, 검증 루프
핵심 인사이트	LangChain은 모델을 바꾸지 않고 하네스만 개선하여 에이전트 정확도를 52.8%에서 66.5%로 향상시킴
사용 사례	OpenAI (Codex), Stripe (주당 1,000개 이상의 PR), Anthropic, Vercel
핵심 구성 요소	컨텍스트 엔지니어링, 아키텍처 제약 조건, 도구/MCP, 서브 에이전트, 훅, 자체 검증

하네스 엔지니어링이란 무엇인가?

핵심 아이디어는 간단합니다.

Agent = Model + Harness

모델은 지능을 제공합니다. 하네스는 그 지능을 유용하게 만듭니다. 종종 더 나은 모델보다 더 나은 하네스가 더 중요합니다.

지금 이것이 중요한 이유

Mitchell Hashimoto의 가이드 원칙은 다음과 같습니다.

"에이전트가 실수를 할 때마다, 에이전트가 다시는 그 실수를 반복하지 않도록 엔지니어링 솔루션을 구축하는 데 시간을 투자하십시오."

이것은 프롬프트 엔지니어링이 아닙니다. AI를 위한 시스템 엔지니어링입니다.

증거: 하네스 > 모델

변경 사항은 다음과 같습니다:

더 나은 컨텍스트 파일 (AGENTS.md)

구조화된 출력 제약 조건

자체 검증 루프

도구 최적화

이는 실무자들이 말해온 바를 확인시켜 줍니다. 한계는 모델이 아니라, 모델 주변에 무엇을 배치하느냐에 달려 있습니다.

하네스의 7가지 구성 요소

1. 컨텍스트 엔지니어링 (Context Engineering)

컨텍스트 엔지니어링은 기초입니다. 에이전트에게 코드베이스의 지도, 관습 및 제약 조건을 제공하는 단계입니다.

실제 적용:

리포지토리 루트의 CLAUDE.md / AGENTS.md 파일
디렉토리 맵 및 아키텍처 개요
코딩 스타일 규칙 및 명명 규칙

markdown

# CLAUDE.md example
## Architecture
- src/app/ — Next.js app router pages
- src/lib/ — shared utilities and API clients
- src/components/ — React components (co-located styles)

## Rules
- Use server components by default
- Never import from node_modules directly in components
- All API calls go through src/lib/api.ts

2. 아키텍처 제약 조건 (Architectural Constraints)

에이전트가 올바른 아키텍처를 선택하기를 바라는 대신, 이를 강제하십시오.

린터(Linter)로 검증되는 엄격한 계층형 아키텍처
패턴 위반 시 실패하는 구조적 테스트
ESLint 규칙이나 커스텀 스크립트를 통한 임포트 제한

핵심 아이디어: 솔루션 공간을 확장하기보다 제한하십시오. 유효한 옵션이 적을수록 잘못된 답이 나올 확률도 줄어듭니다.

3. 도구 및 MCP 서버 (Tools & MCP Servers)

에이전트가 효과적으로 작동하려면 도구가 필요합니다. 최상의 하네스는 다음을 통해 내부 툴링을 노출합니다.

CLI 래퍼 — 커스텀 도구보다는 잘 알려진 CLI(git, docker, npm)를 선호하십시오.
MCP (Model Context Protocol) 서버 — 에이전트가 내부 API, 데이터베이스 및 서비스에 접근할 수 있게 합니다.
파일 시스템 액세스 — 우발적인 피해를 방지하기 위해 특정 디렉토리로 범위를 제한하십시오.

4. 서브 에이전트 및 컨텍스트 방화벽 (Sub-Agents & Context Firewalls)

장시간 실행되는 에이전트 세션은 컨텍스트가 누적되어 결국 성능이 저하되는데, 이를 컨텍스트 부패(context rot)라고 합니다.

해결책은 컨텍스트 방화벽을 갖춘 서브 에이전트입니다.

복잡한 작업을 별개의 하위 작업으로 분할
각 하위 작업은 새로운 컨텍스트와 함께 고유한 세션에서 실행
에이전트 간에는 가공되지 않은 대화가 아닌 구조화된 결과만 전달

Anthropic이 발표한 아키텍처는 두 가지 에이전트를 사용합니다.

Initializer Agent — 작업을 계획하고 기능 목록을 생성
Coding Agent — 각 기능을 격리된 상태에서 실행

5. 훅 및 백프레셔 (Hooks & Back-Pressure)

실수가 누적되기 전에 잡아내는 자동화된 피드백 루프:

Pre-commit 훅 — 타입 체크, 린팅, 포맷팅
테스트 러너 — 에이전트는 모든 변경 후에 테스트를 실행해야 함
빌드 검증 — 깨진 빌드에 대해 신속하게 실패 처리

6. 자체 검증 루프 (Self-Verification Loops)

에이전트가 작업을 완료로 표시하기 전에 스스로 작업을 검증하도록 강제하십시오.

변경 후 테스트 스위트 실행
빌드 통과 여부 확인
출력이 사양과 일치하는지 확인
스크린샷을 찍어 비교(UI 작업의 경우)

이것이 "다 했다고 생각하는" 에이전트와 실제로 "다 한" 에이전트의 차이입니다.

7. 진행 상태 문서화 (Progress Documentation)

30분 이상 소요되는 장기 실행 작업의 경우:

완료된 단계를 추적하는 진행 상황 파일 유지
후속 세션이 이어갈 수 있도록 자주 커밋
자유 형식의 메모가 아닌 구조화된 작업 목록 사용

이렇게 하면 에이전트 세션이 중단되거나 컨텍스트가 부족해지더라도, 다음 세션이 지난 세션이 멈춘 지점부터 다시 시작할 수 있습니다.

실제 사례 연구

OpenAI Codex 팀

이들의 하네스에는 엄격한 커밋 컨벤션, 모든 PR에 대한 자동화된 테스트, 에이전트 인식형 CI/CD 파이프라인이 포함되었습니다.

Stripe의 "Minions"

Stripe의 내부 시스템은 AI 에이전트를 사용하여 주당 1,000개 이상의 병합된 PR을 생성합니다. 그들의 하네스에는 다음이 포함됩니다.

좁게 제한된 작업 정의
인간에 의한 필수 코드 리뷰
자동화된 회귀 테스트
롤백 자동화

Anthropic의 2단계 에이전트 아키텍처

Anthropic은 장기 실행 에이전트를 위한 효과적인 하네스 접근 방식을 발표했습니다.

에이전트 간 전달 형식으로 사용되는 구조화된 기능 목록
중단 후 재개할 수 있도록 하는 Git 기반 진행 추적
에이전트가 멈출 시점을 알 수 있도록 하는 명시적 종료 기준

하네스 구축을 시작하는 방법

1단계: 컨텍스트 파일 생성

프로젝트 루트에 CLAUDE.md (또는 AGENTS.md)를 추가하십시오.

markdown

# Project: [Your Project]

## Stack
[Framework, language, database, hosting]

## Architecture
[Directory structure with one-line descriptions]

## Rules
[5-10 hard rules the agent must follow]

## Common Tasks
[How to run tests, build, deploy]

2단계: 구조적 제약 조건 추가

bash

# 예: 컴포넌트 내에서 직접 DB 임포트를 방지하는 ESLint 규칙
# .eslintrc — no-restricted-imports 규칙

규칙을 자동으로 강제하는 pre-commit 훅을 설정하십시오.

3단계: 빌드 검증 루프 구축

에이전트가 다음을 수행할 수 있는지 확인하십시오.

테스트 실행 (npm test, pytest 등)

타입 체크 (tsc --noEmit, mypy)

린트 (eslint ., ruff check)

이것들을 에이전트의 워크플로우에 연결하여 모든 변경 후에 실행되도록 하십시오.

4단계: 에이전트 세션 범위 지정

에이전트에게 전체 백로그를 주지 마십시오. 대신 다음을 따르십시오.

세션당 하나의 기능
세션당 하나의 버그 수정
각 작업에 대한 명확한 인수 조건

5단계: 하네스 반복 개선

에이전트가 실수를 할 때마다:

근본 원인 파악
이를 방지하는 규칙, 제약 조건 또는 훅 추가
수정 사항 테스트

시간이 지남에 따라 모델을 업그레이드하지 않고도 하네스가 개선되고 에이전트가 더 신뢰할 수 있게 됩니다.

하네스 엔지니어링 vs. 프롬프트 엔지니어링

프롬프트 엔지니어링	하네스 엔지니어링
중점	모델에게 말하는 내용	모델 주변에 구축하는 것
지속성	취약함, 모델 의존적	견고함, 모델에 독립적
복리 효과	시간이 지나도 개선되지 않음	반복할 때마다 더 좋아짐
범위	단일 상호작용	전체 워크플로우
기술 유형	작문	시스템 엔지니어링

프롬프트 엔지니어링은 여전히 유용하지만, 전체 그림의 작은 부분일 뿐입니다. 하네스 엔지니어링은 시너지 효과를 내는 승수입니다.

떠오르는 역할: 하네스 엔지니어

엔지니어링은 두 가지 영역으로 나뉘고 있습니다.

환경 구축 — 구조, 도구, 제약 조건 및 피드백 루프 생성
작업 관리 — 병렬 에이전트 세션 계획, 리뷰 및 오케스트레이션

2026년에 성공하는 엔지니어는 코드를 가장 많이 작성하는 사람이 아닙니다. 에이전트가 코드를 작성할 수 있는 최상의 환경을 구축하는 사람입니다.

혼동 주의: Harness.io

결론

모델은 엔진이고 하네스는 자동차입니다. 엔진만으로는 경주에서 이길 수 없습니다.

가장 빠르게 제품을 출시하는 팀은 더 나은 모델을 사용하는 팀이 아닙니다. 더 나은 하네스를 사용하는 팀입니다.