26 Maret 2026·Y Build Team

Harness Engineering: Membangun Sistem di Sekitar Agen AI (2026)

Harness engineering adalah cara tim papan atas membuat agen pengodean AI menjadi andal. Pelajari formula Agen = Model + Harness, komponen inti, dan hasil nyata dari OpenAI, Stripe, dan Anthropic.

Harness EngineeringAgen AIAgen PengodeanClaude CodeCodexDevOpsSoftware Engineering2026

TL;DR

Konsep	Ringkasan
Formula	Agen = Model + Harness
Apa itu harness?	Segala sesuatu di sekitar model AI: konteks, batasan, alat, loop verifikasi
Wawasan utama	LangChain meningkatkan akurasi agen dari 52,8% → 66,5% hanya dengan mengubah harness, bukan modelnya
Siapa yang menggunakannya	OpenAI (Codex), Stripe (1.000+ PR/minggu), Anthropic, Vercel
Komponen inti	Context engineering, batasan arsitektur, tools/MCP, sub-agen, hooks, verifikasi mandiri

Apa Itu Harness Engineering?

Harness engineering adalah disiplin ilmu membangun sistem, alat, batasan, dan loop umpan balik di sekitar agen pengodean AI agar menjadi andal dan produktif.

Istilah ini diciptakan oleh Mitchell Hashimoto (co-founder HashiCorp) dan mendapatkan perhatian luas saat OpenAI menerbitkan artikel Codex mereka mengenai topik ini pada awal 2026.

Ide intinya sederhana:

Agen = Model + Harness

Model memberikan kecerdasan. Harness membuat kecerdasan itu berguna. Harness yang lebih baik sering kali lebih penting daripada model yang lebih baik.

Mengapa Ini Penting Sekarang

Pada tahun 2025, setiap tim mengadopsi agen pengodean AI. Pada tahun 2026, tim pemenang adalah mereka yang melakukan engineering pada lingkungan agen mereka — bukan sekadar memilih model terbaik.

Prinsip panduan Mitchell Hashimoto:

"Setiap kali Anda menemukan agen melakukan kesalahan, luangkan waktu untuk merekayasa solusi sedemikian rupa sehingga agen tersebut tidak akan pernah melakukan kesalahan itu lagi."

Ini bukan prompt engineering. Ini adalah systems engineering untuk AI.

Bukti Nyata: Harness > Model

LangChain menjalankan eksperimen terkontrol pada Terminal Bench 2.0. Tanpa mengubah model dasarnya, mereka meningkatkan akurasi agen pengodean dari 52,8% menjadi 66,5% — sebuah peningkatan sebesar 26% — hanya dengan meningkatkan harness-nya.

Perubahan tersebut meliputi:

Konteks file yang lebih baik (AGENTS.md)

Batasan output terstruktur

Loop verifikasi mandiri

Optimalisasi tool

Ini mengonfirmasi apa yang telah dikatakan para praktisi: batasannya bukan pada model, melainkan pada apa yang Anda letakkan di sekitarnya.

7 Komponen Sebuah Harness

1. Context Engineering

Context engineering adalah fondasinya. Di sinilah Anda memberikan peta basis kode, konvensi, dan batasan Anda kepada agen.

Dalam praktik:

File CLAUDE.md / AGENTS.md di root repo Anda
Peta direktori dan ringkasan arsitektur
Aturan gaya pengodean dan konvensi penamaan

Aturan utama: Jaga file konteks di bawah 60 baris. Agen kehilangan fokus dengan dokumen panjang — beri mereka peta, bukan manual setebal 1.000 halaman.

markdown

# Contoh CLAUDE.md
## Arsitektur
- src/app/ — Halaman app router Next.js
- src/lib/ — utilitas bersama dan klien API
- src/components/ — Komponen React (gaya teralokasi bersama)

## Aturan
- Gunakan server components secara default
- Jangan pernah mengimpor dari node_modules secara langsung di komponen
- Semua panggilan API melalui src/lib/api.ts

2. Batasan Arsitektur

Alih-alih berharap agen memilih arsitektur yang tepat, paksakan itu.

Arsitektur berlapis yang kaku dan divalidasi oleh linter
Pengujian struktural yang gagal jika pola dilanggar
Pembatasan impor melalui aturan ESLint atau skrip khusus

Idenya: batasi ruang solusi daripada memperluasnya. Lebih sedikit opsi yang valid berarti lebih sedikit jawaban yang salah.

3. Alat & Server MCP

Agen butuh alat untuk menjadi efektif. Harness terbaik mengekspos perkakas internal melalui:

Pembungkus CLI — lebih pilih CLI populer (git, docker, npm) daripada perkakas khusus
Server MCP (Model Context Protocol) — biarkan agen memanggil API internal, database, dan layanan Anda
Akses sistem file — dibatasi ke direktori tertentu untuk mencegah kerusakan yang tidak disengaja

Tips pro: Lebih pilih alat standar yang terdokumentasi dengan baik. Seorang agen dapat menggunakan git dengan sempurna karena ia memiliki data pelatihan yang masif tentangnya. CLI khusus tanpa dokumentasi akan membingungkannya.

4. Sub-Agen & Firewall Konteks

Sesi agen yang berjalan lama mengumpulkan konteks yang akhirnya menurunkan performa — ini disebut context rot (pembusukan konteks).

Solusinya: sub-agen dengan firewall konteks.

Pecah tugas kompleks menjadi sub-tugas diskrit
Setiap sub-tugas berjalan dalam sesinya sendiri dengan konteks baru
Hanya berikan hasil terstruktur antar agen, bukan percakapan mentah

Arsitektur yang diterbitkan Anthropic menggunakan dua agen:

Initializer Agent — merencanakan pekerjaan, membuat daftar fitur
Coding Agent — mengeksekusi setiap fitur secara terisolasi

5. Hooks & Back-Pressure

Loop umpan balik otomatis yang menangkap kesalahan sebelum bertambah parah:

Pre-commit hooks — pengecekan tipe, linting, pemformatan
Test runners — agen harus menjalankan pengujian setelah setiap perubahan
Verifikasi build — gagal lebih awal pada build yang rusak

Aturan desain krusial: Munculkan kegagalan dengan jelas, tetapi jangan pernah memasukkan output sukses yang panjang ke dalam konteks agen. Keberhasilan harus senyap. Kegagalan harus bersuara keras.

6. Loop Verifikasi Mandiri

Paksa agen untuk memverifikasi pekerjaan mereka sendiri sebelum menandai tugas selesai:

Jalankan rangkaian pengujian setelah perubahan
Periksa apakah build berhasil
Verifikasi bahwa output sesuai spesifikasi
Ambil tangkapan layar dan bandingkan (untuk pekerjaan UI)

Inilah perbedaan antara agen yang "mengira sudah selesai" dengan yang benar-benar sudah selesai.

7. Dokumentasi Progres

Untuk tugas yang berjalan lama (30+ menit):

Pertahankan file progres yang melacak langkah-langkah yang telah diselesaikan
Commit pekerjaan sesering mungkin agar sesi berikutnya dapat melanjutkan
Gunakan daftar tugas terstruktur, bukan catatan bebas

Dengan cara ini, jika sesi agen terhenti atau kehabisan konteks, sesi berikutnya akan melanjutkan dari tempat sesi terakhir berhenti.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Hasil di Dunia Nyata

Tim OpenAI Codex

3 engineer menghasilkan satu juta baris kode tanpa kode yang ditulis manual selama 5 bulan. Mereka mencapai rata-rata 3,5 PR gabungan per engineer per hari — sebuah throughput yang mustahil dicapai tanpa harness yang matang.

Harness mereka meliputi: konvensi commit yang ketat, pengujian otomatis pada setiap PR, dan pipeline CI/CD yang ramah agen.

"Minions" Stripe

Sistem internal Stripe menghasilkan 1.000+ PR gabungan per minggu menggunakan agen AI. Harness mereka meliputi:

Definisi tugas dengan cakupan yang sangat spesifik
Tinjauan kode wajib oleh manusia
Pengujian regresi otomatis
Otomatisasi rollback

Arsitektur Dua Agen Anthropic

Anthropic mempublikasikan pendekatan mereka terhadap harness yang efektif untuk agen yang berjalan lama:

Daftar fitur terstruktur sebagai format serah terima antar agen
Pelacakan progres berbasis Git sehingga agen dapat melanjutkan setelah gangguan
Kriteria keluar eksplisit agar agen tahu kapan harus berhenti

Cara Mulai Membangun Harness Anda

Langkah 1: Buat File Konteks Anda

Tambahkan CLAUDE.md (atau AGENTS.md) ke root proyek Anda:

markdown

# Proyek: [Proyek Anda]

## Stack
[Framework, bahasa, database, hosting]

## Arsitektur
[Struktur direktori dengan deskripsi satu baris]

## Aturan
[5-10 aturan baku yang harus diikuti agen]

## Tugas Umum
[Cara menjalankan tes, build, deploy]

Langkah 2: Tambahkan Batasan Struktural

bash

# Contoh: Aturan ESLint mencegah impor DB langsung di komponen
# .eslintrc — aturan no-restricted-imports

Siapkan pre-commit hooks yang memaksakan aturan Anda secara otomatis.

Langkah 3: Bangun Loop Verifikasi

Pastikan agen Anda dapat:

Menjalankan tes (npm test, pytest, dll.)

Memeriksa tipe (tsc --noEmit, mypy)

Linting (eslint ., ruff check)

Hubungkan ini ke dalam alur kerja agen Anda sehingga mereka berjalan setelah setiap perubahan.

Langkah 4: Batasi Cakupan Sesi Agen

Jangan berikan seluruh backlog Anda kepada agen. Sebagai gantinya:

Satu fitur per sesi
Satu perbaikan bug per sesi
Kriteria penerimaan yang jelas untuk setiap tugas

Langkah 5: Lakukan Iterasi pada Harness

Setiap kali agen melakukan kesalahan:

Identifikasi akar penyebabnya
Tambahkan aturan, batasan, atau hook yang mencegahnya terulang
Uji perbaikannya

Seiring waktu, harness Anda menjadi lebih baik dan agen Anda menjadi lebih andal — tanpa perlu melakukan upgrade model.

Harness Engineering vs. Prompt Engineering

Prompt Engineering	Harness Engineering
Fokus	Apa yang Anda katakan kepada model	Apa yang Anda bangun di sekitar model
Daya Tahan	Ringkih, bergantung pada model	Kokoh, agnostik terhadap model
Akumulasi	Tidak membaik seiring waktu	Menjadi lebih baik di setiap iterasi
Cakupan	Interaksi tunggal	Seluruh alur kerja
Jenis Keahlian	Menulis	Systems engineering

Prompt engineering tetap berguna, tetapi itu hanya sebagian kecil dari gambaran besarnya. Harness engineering adalah penggandanya (multiplier).

Peran Baru yang Muncul: Harness Engineer

Engineering kini terbagi menjadi dua bagian:

Environment Building — menciptakan struktur, alat, batasan, dan loop umpan balik
Work Management — merencanakan, meninjau, dan mengorkestrasi sesi agen paralel

Engineer yang berkembang di tahun 2026 bukanlah mereka yang menulis kode paling banyak. Mereka adalah orang-orang yang membangun lingkungan terbaik bagi agen untuk menulis kode di dalamnya.

Jangan Tertukar Dengan: Harness.io

Jika Anda mencari "Harness Engineering" untuk mencari platform DevOps — Harness.io adalah hal yang sepenuhnya terpisah. Ini adalah platform CI/CD bertenaga AI yang bernilai $5,5 miliar (per Desember 2025) yang menawarkan integrasi kontinu, pengiriman, feature flags, manajemen biaya cloud, dan pengujian keamanan.

Meskipun Harness.io dan harness engineering berbagi nama yang sama, keduanya menyelesaikan masalah yang berbeda. Walaupun ada persilangan yang menarik: DevOps bertenaga AI milik Harness.io bisa dibilang merupakan aplikasi dari prinsip-prinsip harness engineering ke dalam pipeline deployment.

Kesimpulan

Model adalah mesinnya. Harness adalah mobilnya. Tidak ada yang memenangkan balapan hanya dengan mesin saja.

Jika Anda menggunakan agen pengodean AI di tahun 2026 dan tidak berinvestasi pada harness Anda, Anda menyia-nyiakan sebagian besar nilainya. Mulailah dengan file konteks, tambahkan batasan, bangun loop verifikasi, dan lakukan iterasi setiap kali ada sesuatu yang rusak.

Tim yang melakukan pengiriman tercepat bukan menggunakan model yang lebih baik. Mereka menggunakan harness yang lebih baik.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Kembali ke blog

26 Maret 2026·Y Build Team

Harness Engineering: Membangun Sistem di Sekitar Agen AI (2026)

Harness engineering adalah cara tim papan atas membuat agen pengodean AI menjadi andal. Pelajari formula Agen = Model + Harness, komponen inti, dan hasil nyata dari OpenAI, Stripe, dan Anthropic.

Harness EngineeringAgen AIAgen PengodeanClaude CodeCodexDevOpsSoftware Engineering2026

TL;DR

Konsep	Ringkasan
Formula	Agen = Model + Harness
Apa itu harness?	Segala sesuatu di sekitar model AI: konteks, batasan, alat, loop verifikasi
Wawasan utama	LangChain meningkatkan akurasi agen dari 52,8% → 66,5% hanya dengan mengubah harness, bukan modelnya
Siapa yang menggunakannya	OpenAI (Codex), Stripe (1.000+ PR/minggu), Anthropic, Vercel
Komponen inti	Context engineering, batasan arsitektur, tools/MCP, sub-agen, hooks, verifikasi mandiri

Apa Itu Harness Engineering?

Harness engineering adalah disiplin ilmu membangun sistem, alat, batasan, dan loop umpan balik di sekitar agen pengodean AI agar menjadi andal dan produktif.

Istilah ini diciptakan oleh Mitchell Hashimoto (co-founder HashiCorp) dan mendapatkan perhatian luas saat OpenAI menerbitkan artikel Codex mereka mengenai topik ini pada awal 2026.

Ide intinya sederhana:

Agen = Model + Harness

Model memberikan kecerdasan. Harness membuat kecerdasan itu berguna. Harness yang lebih baik sering kali lebih penting daripada model yang lebih baik.

Mengapa Ini Penting Sekarang

Prinsip panduan Mitchell Hashimoto:

"Setiap kali Anda menemukan agen melakukan kesalahan, luangkan waktu untuk merekayasa solusi sedemikian rupa sehingga agen tersebut tidak akan pernah melakukan kesalahan itu lagi."

Ini bukan prompt engineering. Ini adalah systems engineering untuk AI.

Bukti Nyata: Harness > Model

Perubahan tersebut meliputi:

Konteks file yang lebih baik (AGENTS.md)

Batasan output terstruktur

Loop verifikasi mandiri

Optimalisasi tool

Ini mengonfirmasi apa yang telah dikatakan para praktisi: batasannya bukan pada model, melainkan pada apa yang Anda letakkan di sekitarnya.

7 Komponen Sebuah Harness

1. Context Engineering

Context engineering adalah fondasinya. Di sinilah Anda memberikan peta basis kode, konvensi, dan batasan Anda kepada agen.

Dalam praktik:

File CLAUDE.md / AGENTS.md di root repo Anda
Peta direktori dan ringkasan arsitektur
Aturan gaya pengodean dan konvensi penamaan

Aturan utama: Jaga file konteks di bawah 60 baris. Agen kehilangan fokus dengan dokumen panjang — beri mereka peta, bukan manual setebal 1.000 halaman.

markdown

# Contoh CLAUDE.md
## Arsitektur
- src/app/ — Halaman app router Next.js
- src/lib/ — utilitas bersama dan klien API
- src/components/ — Komponen React (gaya teralokasi bersama)

## Aturan
- Gunakan server components secara default
- Jangan pernah mengimpor dari node_modules secara langsung di komponen
- Semua panggilan API melalui src/lib/api.ts

2. Batasan Arsitektur

Alih-alih berharap agen memilih arsitektur yang tepat, paksakan itu.

Arsitektur berlapis yang kaku dan divalidasi oleh linter
Pengujian struktural yang gagal jika pola dilanggar
Pembatasan impor melalui aturan ESLint atau skrip khusus

Idenya: batasi ruang solusi daripada memperluasnya. Lebih sedikit opsi yang valid berarti lebih sedikit jawaban yang salah.

3. Alat & Server MCP

Agen butuh alat untuk menjadi efektif. Harness terbaik mengekspos perkakas internal melalui:

Pembungkus CLI — lebih pilih CLI populer (git, docker, npm) daripada perkakas khusus
Server MCP (Model Context Protocol) — biarkan agen memanggil API internal, database, dan layanan Anda
Akses sistem file — dibatasi ke direktori tertentu untuk mencegah kerusakan yang tidak disengaja

4. Sub-Agen & Firewall Konteks

Sesi agen yang berjalan lama mengumpulkan konteks yang akhirnya menurunkan performa — ini disebut context rot (pembusukan konteks).

Solusinya: sub-agen dengan firewall konteks.

Pecah tugas kompleks menjadi sub-tugas diskrit
Setiap sub-tugas berjalan dalam sesinya sendiri dengan konteks baru
Hanya berikan hasil terstruktur antar agen, bukan percakapan mentah

Arsitektur yang diterbitkan Anthropic menggunakan dua agen:

Initializer Agent — merencanakan pekerjaan, membuat daftar fitur
Coding Agent — mengeksekusi setiap fitur secara terisolasi

5. Hooks & Back-Pressure

Loop umpan balik otomatis yang menangkap kesalahan sebelum bertambah parah:

Pre-commit hooks — pengecekan tipe, linting, pemformatan
Test runners — agen harus menjalankan pengujian setelah setiap perubahan
Verifikasi build — gagal lebih awal pada build yang rusak

6. Loop Verifikasi Mandiri

Paksa agen untuk memverifikasi pekerjaan mereka sendiri sebelum menandai tugas selesai:

Jalankan rangkaian pengujian setelah perubahan
Periksa apakah build berhasil
Verifikasi bahwa output sesuai spesifikasi
Ambil tangkapan layar dan bandingkan (untuk pekerjaan UI)

Inilah perbedaan antara agen yang "mengira sudah selesai" dengan yang benar-benar sudah selesai.

7. Dokumentasi Progres

Untuk tugas yang berjalan lama (30+ menit):

Pertahankan file progres yang melacak langkah-langkah yang telah diselesaikan
Commit pekerjaan sesering mungkin agar sesi berikutnya dapat melanjutkan
Gunakan daftar tugas terstruktur, bukan catatan bebas

Dengan cara ini, jika sesi agen terhenti atau kehabisan konteks, sesi berikutnya akan melanjutkan dari tempat sesi terakhir berhenti.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Hasil di Dunia Nyata

Tim OpenAI Codex

Harness mereka meliputi: konvensi commit yang ketat, pengujian otomatis pada setiap PR, dan pipeline CI/CD yang ramah agen.

"Minions" Stripe

Sistem internal Stripe menghasilkan 1.000+ PR gabungan per minggu menggunakan agen AI. Harness mereka meliputi:

Definisi tugas dengan cakupan yang sangat spesifik
Tinjauan kode wajib oleh manusia
Pengujian regresi otomatis
Otomatisasi rollback

Arsitektur Dua Agen Anthropic

Anthropic mempublikasikan pendekatan mereka terhadap harness yang efektif untuk agen yang berjalan lama:

Daftar fitur terstruktur sebagai format serah terima antar agen
Pelacakan progres berbasis Git sehingga agen dapat melanjutkan setelah gangguan
Kriteria keluar eksplisit agar agen tahu kapan harus berhenti

Cara Mulai Membangun Harness Anda

Langkah 1: Buat File Konteks Anda

Tambahkan CLAUDE.md (atau AGENTS.md) ke root proyek Anda:

markdown

# Proyek: [Proyek Anda]

## Stack
[Framework, bahasa, database, hosting]

## Arsitektur
[Struktur direktori dengan deskripsi satu baris]

## Aturan
[5-10 aturan baku yang harus diikuti agen]

## Tugas Umum
[Cara menjalankan tes, build, deploy]

Langkah 2: Tambahkan Batasan Struktural

bash

# Contoh: Aturan ESLint mencegah impor DB langsung di komponen
# .eslintrc — aturan no-restricted-imports

Siapkan pre-commit hooks yang memaksakan aturan Anda secara otomatis.

Langkah 3: Bangun Loop Verifikasi

Pastikan agen Anda dapat:

Menjalankan tes (npm test, pytest, dll.)

Memeriksa tipe (tsc --noEmit, mypy)

Linting (eslint ., ruff check)

Hubungkan ini ke dalam alur kerja agen Anda sehingga mereka berjalan setelah setiap perubahan.

Langkah 4: Batasi Cakupan Sesi Agen

Jangan berikan seluruh backlog Anda kepada agen. Sebagai gantinya:

Satu fitur per sesi
Satu perbaikan bug per sesi
Kriteria penerimaan yang jelas untuk setiap tugas

Langkah 5: Lakukan Iterasi pada Harness

Setiap kali agen melakukan kesalahan:

Identifikasi akar penyebabnya
Tambahkan aturan, batasan, atau hook yang mencegahnya terulang
Uji perbaikannya

Seiring waktu, harness Anda menjadi lebih baik dan agen Anda menjadi lebih andal — tanpa perlu melakukan upgrade model.

Harness Engineering vs. Prompt Engineering

Prompt Engineering	Harness Engineering
Fokus	Apa yang Anda katakan kepada model	Apa yang Anda bangun di sekitar model
Daya Tahan	Ringkih, bergantung pada model	Kokoh, agnostik terhadap model
Akumulasi	Tidak membaik seiring waktu	Menjadi lebih baik di setiap iterasi
Cakupan	Interaksi tunggal	Seluruh alur kerja
Jenis Keahlian	Menulis	Systems engineering

Prompt engineering tetap berguna, tetapi itu hanya sebagian kecil dari gambaran besarnya. Harness engineering adalah penggandanya (multiplier).

Peran Baru yang Muncul: Harness Engineer

Engineering kini terbagi menjadi dua bagian:

Environment Building — menciptakan struktur, alat, batasan, dan loop umpan balik
Work Management — merencanakan, meninjau, dan mengorkestrasi sesi agen paralel

Engineer yang berkembang di tahun 2026 bukanlah mereka yang menulis kode paling banyak. Mereka adalah orang-orang yang membangun lingkungan terbaik bagi agen untuk menulis kode di dalamnya.

Jangan Tertukar Dengan: Harness.io

Kesimpulan

Model adalah mesinnya. Harness adalah mobilnya. Tidak ada yang memenangkan balapan hanya dengan mesin saja.

Tim yang melakukan pengiriman tercepat bukan menggunakan model yang lebih baik. Mereka menggunakan harness yang lebih baik.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.