Harness Engineering: Membangun Sistem di Sekitar Agen AI (2026)
Harness engineering adalah cara tim papan atas membuat agen pengodean AI menjadi andal. Pelajari formula Agen = Model + Harness, komponen inti, dan hasil nyata dari OpenAI, Stripe, dan Anthropic.
TL;DR
| Konsep | Ringkasan |
|---|---|
| Formula | Agen = Model + Harness |
| Apa itu harness? | Segala sesuatu di sekitar model AI: konteks, batasan, alat, loop verifikasi |
| Wawasan utama | LangChain meningkatkan akurasi agen dari 52,8% → 66,5% hanya dengan mengubah harness, bukan modelnya |
| Siapa yang menggunakannya | OpenAI (Codex), Stripe (1.000+ PR/minggu), Anthropic, Vercel |
| Komponen inti | Context engineering, batasan arsitektur, tools/MCP, sub-agen, hooks, verifikasi mandiri |
Apa Itu Harness Engineering?
Harness engineering adalah disiplin ilmu membangun sistem, alat, batasan, dan loop umpan balik di sekitar agen pengodean AI agar menjadi andal dan produktif.
Istilah ini diciptakan oleh Mitchell Hashimoto (co-founder HashiCorp) dan mendapatkan perhatian luas saat OpenAI menerbitkan artikel Codex mereka mengenai topik ini pada awal 2026.
Ide intinya sederhana:
Agen = Model + Harness
Model memberikan kecerdasan. Harness membuat kecerdasan itu berguna. Harness yang lebih baik sering kali lebih penting daripada model yang lebih baik.
Mengapa Ini Penting Sekarang
Pada tahun 2025, setiap tim mengadopsi agen pengodean AI. Pada tahun 2026, tim pemenang adalah mereka yang melakukan engineering pada lingkungan agen mereka — bukan sekadar memilih model terbaik.
Prinsip panduan Mitchell Hashimoto:
"Setiap kali Anda menemukan agen melakukan kesalahan, luangkan waktu untuk merekayasa solusi sedemikian rupa sehingga agen tersebut tidak akan pernah melakukan kesalahan itu lagi."
Ini bukan prompt engineering. Ini adalah systems engineering untuk AI.
Bukti Nyata: Harness > Model
LangChain menjalankan eksperimen terkontrol pada Terminal Bench 2.0. Tanpa mengubah model dasarnya, mereka meningkatkan akurasi agen pengodean dari 52,8% menjadi 66,5% — sebuah peningkatan sebesar 26% — hanya dengan meningkatkan harness-nya.
Perubahan tersebut meliputi:
- Konteks file yang lebih baik (AGENTS.md)
- Batasan output terstruktur
- Loop verifikasi mandiri
- Optimalisasi tool
Ini mengonfirmasi apa yang telah dikatakan para praktisi: batasannya bukan pada model, melainkan pada apa yang Anda letakkan di sekitarnya.
7 Komponen Sebuah Harness
1. Context Engineering
Context engineering adalah fondasinya. Di sinilah Anda memberikan peta basis kode, konvensi, dan batasan Anda kepada agen.
Dalam praktik:- File
CLAUDE.md/AGENTS.mddi root repo Anda - Peta direktori dan ringkasan arsitektur
- Aturan gaya pengodean dan konvensi penamaan
# Contoh CLAUDE.md
## Arsitektur
- src/app/ — Halaman app router Next.js
- src/lib/ — utilitas bersama dan klien API
- src/components/ — Komponen React (gaya teralokasi bersama)
## Aturan
- Gunakan server components secara default
- Jangan pernah mengimpor dari node_modules secara langsung di komponen
- Semua panggilan API melalui src/lib/api.ts
2. Batasan Arsitektur
Alih-alih berharap agen memilih arsitektur yang tepat, paksakan itu.
- Arsitektur berlapis yang kaku dan divalidasi oleh linter
- Pengujian struktural yang gagal jika pola dilanggar
- Pembatasan impor melalui aturan ESLint atau skrip khusus
3. Alat & Server MCP
Agen butuh alat untuk menjadi efektif. Harness terbaik mengekspos perkakas internal melalui:
- Pembungkus CLI — lebih pilih CLI populer (git, docker, npm) daripada perkakas khusus
- Server MCP (Model Context Protocol) — biarkan agen memanggil API internal, database, dan layanan Anda
- Akses sistem file — dibatasi ke direktori tertentu untuk mencegah kerusakan yang tidak disengaja
git dengan sempurna karena ia memiliki data pelatihan yang masif tentangnya. CLI khusus tanpa dokumentasi akan membingungkannya.
4. Sub-Agen & Firewall Konteks
Sesi agen yang berjalan lama mengumpulkan konteks yang akhirnya menurunkan performa — ini disebut context rot (pembusukan konteks).
Solusinya: sub-agen dengan firewall konteks.
- Pecah tugas kompleks menjadi sub-tugas diskrit
- Setiap sub-tugas berjalan dalam sesinya sendiri dengan konteks baru
- Hanya berikan hasil terstruktur antar agen, bukan percakapan mentah
- Initializer Agent — merencanakan pekerjaan, membuat daftar fitur
- Coding Agent — mengeksekusi setiap fitur secara terisolasi
5. Hooks & Back-Pressure
Loop umpan balik otomatis yang menangkap kesalahan sebelum bertambah parah:
- Pre-commit hooks — pengecekan tipe, linting, pemformatan
- Test runners — agen harus menjalankan pengujian setelah setiap perubahan
- Verifikasi build — gagal lebih awal pada build yang rusak
6. Loop Verifikasi Mandiri
Paksa agen untuk memverifikasi pekerjaan mereka sendiri sebelum menandai tugas selesai:
- Jalankan rangkaian pengujian setelah perubahan
- Periksa apakah build berhasil
- Verifikasi bahwa output sesuai spesifikasi
- Ambil tangkapan layar dan bandingkan (untuk pekerjaan UI)
7. Dokumentasi Progres
Untuk tugas yang berjalan lama (30+ menit):
- Pertahankan file progres yang melacak langkah-langkah yang telah diselesaikan
- Commit pekerjaan sesering mungkin agar sesi berikutnya dapat melanjutkan
- Gunakan daftar tugas terstruktur, bukan catatan bebas
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Hasil di Dunia Nyata
Tim OpenAI Codex
3 engineer menghasilkan satu juta baris kode tanpa kode yang ditulis manual selama 5 bulan. Mereka mencapai rata-rata 3,5 PR gabungan per engineer per hari — sebuah throughput yang mustahil dicapai tanpa harness yang matang.
Harness mereka meliputi: konvensi commit yang ketat, pengujian otomatis pada setiap PR, dan pipeline CI/CD yang ramah agen.
"Minions" Stripe
Sistem internal Stripe menghasilkan 1.000+ PR gabungan per minggu menggunakan agen AI. Harness mereka meliputi:
- Definisi tugas dengan cakupan yang sangat spesifik
- Tinjauan kode wajib oleh manusia
- Pengujian regresi otomatis
- Otomatisasi rollback
Arsitektur Dua Agen Anthropic
Anthropic mempublikasikan pendekatan mereka terhadap harness yang efektif untuk agen yang berjalan lama:
- Daftar fitur terstruktur sebagai format serah terima antar agen
- Pelacakan progres berbasis Git sehingga agen dapat melanjutkan setelah gangguan
- Kriteria keluar eksplisit agar agen tahu kapan harus berhenti
Cara Mulai Membangun Harness Anda
Langkah 1: Buat File Konteks Anda
Tambahkan CLAUDE.md (atau AGENTS.md) ke root proyek Anda:
# Proyek: [Proyek Anda]
## Stack
[Framework, bahasa, database, hosting]
## Arsitektur
[Struktur direktori dengan deskripsi satu baris]
## Aturan
[5-10 aturan baku yang harus diikuti agen]
## Tugas Umum
[Cara menjalankan tes, build, deploy]
Langkah 2: Tambahkan Batasan Struktural
# Contoh: Aturan ESLint mencegah impor DB langsung di komponen
# .eslintrc — aturan no-restricted-imports
Siapkan pre-commit hooks yang memaksakan aturan Anda secara otomatis.
Langkah 3: Bangun Loop Verifikasi
Pastikan agen Anda dapat:
- Menjalankan tes (
npm test,pytest, dll.) - Memeriksa tipe (
tsc --noEmit,mypy) - Linting (
eslint .,ruff check)
Hubungkan ini ke dalam alur kerja agen Anda sehingga mereka berjalan setelah setiap perubahan.
Langkah 4: Batasi Cakupan Sesi Agen
Jangan berikan seluruh backlog Anda kepada agen. Sebagai gantinya:
- Satu fitur per sesi
- Satu perbaikan bug per sesi
- Kriteria penerimaan yang jelas untuk setiap tugas
Langkah 5: Lakukan Iterasi pada Harness
Setiap kali agen melakukan kesalahan:
- Identifikasi akar penyebabnya
- Tambahkan aturan, batasan, atau hook yang mencegahnya terulang
- Uji perbaikannya
Harness Engineering vs. Prompt Engineering
| Prompt Engineering | Harness Engineering | |
|---|---|---|
| Fokus | Apa yang Anda katakan kepada model | Apa yang Anda bangun di sekitar model |
| Daya Tahan | Ringkih, bergantung pada model | Kokoh, agnostik terhadap model |
| Akumulasi | Tidak membaik seiring waktu | Menjadi lebih baik di setiap iterasi |
| Cakupan | Interaksi tunggal | Seluruh alur kerja |
| Jenis Keahlian | Menulis | Systems engineering |
Prompt engineering tetap berguna, tetapi itu hanya sebagian kecil dari gambaran besarnya. Harness engineering adalah penggandanya (multiplier).
Peran Baru yang Muncul: Harness Engineer
Engineering kini terbagi menjadi dua bagian:
- Environment Building — menciptakan struktur, alat, batasan, dan loop umpan balik
- Work Management — merencanakan, meninjau, dan mengorkestrasi sesi agen paralel
Jangan Tertukar Dengan: Harness.io
Jika Anda mencari "Harness Engineering" untuk mencari platform DevOps — Harness.io adalah hal yang sepenuhnya terpisah. Ini adalah platform CI/CD bertenaga AI yang bernilai $5,5 miliar (per Desember 2025) yang menawarkan integrasi kontinu, pengiriman, feature flags, manajemen biaya cloud, dan pengujian keamanan.
Meskipun Harness.io dan harness engineering berbagi nama yang sama, keduanya menyelesaikan masalah yang berbeda. Walaupun ada persilangan yang menarik: DevOps bertenaga AI milik Harness.io bisa dibilang merupakan aplikasi dari prinsip-prinsip harness engineering ke dalam pipeline deployment.
Kesimpulan
Model adalah mesinnya. Harness adalah mobilnya. Tidak ada yang memenangkan balapan hanya dengan mesin saja.
Jika Anda menggunakan agen pengodean AI di tahun 2026 dan tidak berinvestasi pada harness Anda, Anda menyia-nyiakan sebagian besar nilainya. Mulailah dengan file konteks, tambahkan batasan, bangun loop verifikasi, dan lakukan iterasi setiap kali ada sesuatu yang rusak.
Tim yang melakukan pengiriman tercepat bukan menggunakan model yang lebih baik. Mereka menggunakan harness yang lebih baik.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.