26 Mac 2026·Y Build Team

Kejuruteraan Harness: Membina Sistem di Sekeliling Ejen AI (2026)

Kejuruteraan harness adalah bagaimana pasukan terbaik menjadikan ejen pengekodan AI boleh dipercayai. Pelajari formula Ejen = Model + Harness, komponen teras, dan keputusan sebenar daripada OpenAI, Stripe, dan Anthropic.

Kejuruteraan HarnessEjen AIEjen PengekodanClaude CodeCodexDevOpsKejuruteraan Perisian2026

TL;DR

Konsep	Ringkasan
Formula	Ejen = Model + Harness
Apa itu harness?	Segala-galanya di sekeliling model AI: konteks, kekangan, alatan, gelung pengesahan
Wawasan utama	LangChain meningkatkan ketepatan ejen daripada 52.8% → 66.5% hanya dengan menukar harness, bukan model
Siapa yang menggunakannya	OpenAI (Codex), Stripe (1,000+ PR/minggu), Anthropic, Vercel
Komponen teras	Kejuruteraan konteks, kekangan seni bina, alatan/MCP, sub-ejen, hook, pengesahan kendiri

Apa Itu Kejuruteraan Harness?

Kejuruteraan harness adalah disiplin membina sistem, alatan, kekangan, dan gelung maklum balas di sekeliling ejen pengekodan AI untuk menjadikannya boleh dipercayai dan produktif.

Istilah ini dicipta oleh Mitchell Hashimoto (pengasas bersama HashiCorp) dan mendapat perhatian meluas apabila OpenAI menerbitkan artikel Codex mereka mengenai topik ini pada awal tahun 2026.

Idea terasnya mudah:

Ejen = Model + Harness

Model menyediakan kecerdasan. Harness menjadikan kecerdasan itu berguna. Harness yang lebih baik selalunya lebih penting daripada model yang lebih baik.

Mengapa Ia Penting Sekarang

Pada tahun 2025, setiap pasukan menggunakan ejen pengekodan AI. Pada tahun 2026, pasukan yang menang adalah mereka yang merekayasa persekitaran ejen mereka — bukan sekadar memilih model terbaik.

Prinsip panduan Mitchell Hashimoto:

"Setiap kali anda mendapati ejen melakukan kesilapan, anda meluangkan masa untuk merekayasa penyelesaian supaya ejen tersebut tidak akan melakukan kesilapan itu lagi."

Ini bukan kejuruteraan prom (prompt engineering). Ini adalah kejuruteraan sistem untuk AI.

Bukti: Harness > Model

LangChain menjalankan eksperimen terkawal pada Terminal Bench 2.0. Tanpa menukar model asas, mereka meningkatkan ketepatan ejen pengekodan mereka daripada 52.8% kepada 66.5% — peningkatan sebanyak 26% — hanya dengan menambah baik harness.

Perubahan tersebut termasuk:

Fail konteks yang lebih baik (AGENTS.md)

Kekangan output berstruktur

Gelung pengesahan kendiri

Pengoptimuman alatan

Ini mengesahkan apa yang telah diperkatakan oleh pengamal: had silingnya bukan pada model. Ia adalah apa yang anda letakkan di sekelilingnya.

7 Komponen Harness

1. Kejuruteraan Konteks

Kejuruteraan konteks adalah asasnya. Di sinilah anda memberi ejen peta pangkalan kod anda, konvensyen anda, dan kekangan anda.

Dalam amalan:

Fail CLAUDE.md / AGENTS.md dalam akar repo anda
Peta direktori dan gambaran keseluruhan seni bina
Peraturan gaya pengekodan dan konvensyen penamaan

Peraturan utama: Pastikan fail konteks di bawah 60 baris. Ejen hilang fokus dengan dokumen yang panjang — berikan mereka peta, bukannya manual 1,000 halaman.

markdown

# Contoh CLAUDE.md
## Seni Bina
- src/app/ — halaman penunjuk arah aplikasi Next.js
- src/lib/ — utiliti kongsi dan klien API
- src/components/ — komponen React (gaya ditempatkan bersama)

## Peraturan
- Gunakan komponen pelayan secara lalai
- Jangan sesekali import dari node_modules secara langsung dalam komponen
- Semua panggilan API melalui src/lib/api.ts

2. Kekangan Seni Bina

Daripada berharap ejen memilih seni bina yang betul, uatkuasakannya.

Seni bina berlapis yang kaku disahkan oleh linter
Ujian struktur yang gagal jika corak dilanggar
Sekatan import melalui peraturan ESLint atau skrip tersuai

Ideanya: kekangkan ruang penyelesaian dan bukannya mengembangkannya. Pilihan sah yang lebih sedikit bermakna jawapan salah yang lebih sedikit.

3. Alatan & Pelayan MCP

Ejen memerlukan alatan untuk menjadi berkesan. Harness terbaik mendedahkan alatan dalaman melalui:

Pembalut CLI — lebih mengutamakan CLI yang terkenal (git, docker, npm) berbanding alatan tersuai
Pelayan MCP (Model Context Protocol) — membolehkan ejen memanggil API dalaman, pangkalan data, dan perkhidmatan anda
Akses sistem fail — dihadkan kepada direktori tertentu untuk mengelakkan kerosakan tidak sengaja

Tip profesional: Utamakan alatan standard yang didokumentasikan dengan baik. Ejen boleh menggunakan git dengan sempurna kerana ia mempunyai data latihan yang sangat besar mengenainya. CLI tersuai tanpa dokumentasi akan mengelirukannya.

4. Sub-Ejen & Tembok Api Konteks

Sesi ejen yang berjalan lama mengumpul konteks yang akhirnya merosotkan prestasi — ini dipanggil reputan konteks (context rot).

Penyelesaiannya: sub-ejen dengan tembok api konteks (context firewalls).

Pecahkan tugasan kompleks kepada sub-tugasan diskret
Setiap sub-tugasan berjalan dalam sesinya sendiri dengan konteks yang segar
Hantar hanya keputusan berstruktur antara ejen, bukan perbualan mentah

Seni bina Anthropic yang diterbitkan menggunakan dua ejen:

Ejen Pemula (Initializer Agent) — merancang kerja, mencipta senarai ciri
Ejen Pengekodan (Coding Agent) — melaksanakan setiap ciri secara berasingan

5. Hook & Tekanan Balas (Back-Pressure)

Gelung maklum balas automatik yang mengesan kesilapan sebelum ia menjadi lebih teruk:

Pre-commit hooks — penyemakan jenis (type-checking), linting, pemformatan
Pelari ujian (Test runners) — ejen harus menjalankan ujian selepas setiap perubahan
Pengesahan binaan (Build verification) — gagal dengan cepat pada binaan yang rosak

Peraturan reka bentuk kritikal: Paparkan kegagalan dengan jelas, tetapi jangan sesekali membuang output kejayaan yang panjang lebar ke dalam konteks ejen. Kejayaan haruslah senyap. Kegagalan haruslah bising.

6. Gelung Pengesahan Kendiri

Paksa ejen untuk mengesahkan kerja mereka sendiri sebelum menandakan tugasan sebagai selesai:

Jalankan set ujian selepas perubahan
Periksa sama ada binaan berjaya
Sahkan output sepadan dengan spesifikasi
Ambil tangkapan skrin dan bandingkan (untuk kerja UI)

Ini adalah perbezaan antara ejen yang "berfikir ia sudah selesai" dan ejen yang sebenarnya sudah selesai.

7. Dokumentasi Kemajuan

Untuk tugasan yang berjalan lama (30+ minit):

Kekalkan fail kemajuan yang menjejaki langkah-langkah yang telah selesai
Komit kerja dengan kerap supaya sesi seterusnya boleh menyambung semula
Gunakan senarai tugasan berstruktur, bukan nota bebas

Dengan cara ini, jika sesi ejen terhenti atau kehabisan konteks, sesi seterusnya akan menyambung dari tempat sesi terakhir berhenti.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Keputusan Dunia Sebenar

Pasukan OpenAI Codex

3 jurutera menghasilkan sejuta baris kod dengan sifar kod yang ditulis secara manual selama 5 bulan. Mereka mencapai purata 3.5 PR yang digabungkan bagi setiap jurutera setiap hari — satu daya pemprosesan yang mustahil tanpa harness yang matang.

Harness mereka termasuk: konvensyen komit yang ketat, ujian automatik pada setiap PR, dan saluran paip CI/CD yang peka terhadap ejen.

"Minions" Stripe

Sistem dalaman Stripe menghasilkan 1,000+ PR yang digabungkan setiap minggu menggunakan ejen AI. Harness mereka termasuk:

Takrifan tugasan yang skopnya terhad
Semakan kod wajib oleh manusia
Ujian regresi automatik
Automasi pengunduran (rollback)

Seni Bina Dua Ejen Anthropic

Anthropic menerbitkan pendekatan mereka terhadap harness yang berkesan untuk ejen yang berjalan lama:

Senarai ciri berstruktur sebagai format serahan antara ejen
Penjejakan kemajuan berasaskan Git supaya ejen boleh menyambung semula selepas gangguan
Kriteria keluar eksplisit supaya ejen tahu bila perlu berhenti

Cara Mula Membina Harness Anda

Langkah 1: Cipta Fail Konteks Anda

Tambah CLAUDE.md (atau AGENTS.md) ke akar projek anda:

markdown

# Projek: [Projek Anda]

## Stack
[Rangka kerja, bahasa, pangkalan data, pengehosan]

## Seni Bina
[Struktur direktori dengan penerangan satu baris]

## Peraturan
[5-10 peraturan ketat yang mesti dipatuhi oleh ejen]

## Tugasan Biasa
[Cara menjalankan ujian, membina, menyebarkan]

Langkah 2: Tambah Kekangan Seni Bina

bash

# Contoh: Peraturan ESLint yang menghalang import DB langsung dalam komponen
# .eslintrc — peraturan no-restricted-imports

Sediakan pre-commit hooks yang menguatkuasakan peraturan anda secara automatik.

Langkah 3: Bina Gelung Pengesahan

Pastikan ejen anda boleh:

Menjalankan ujian (npm test, pytest, dsb.)

Memeriksa jenis (tsc --noEmit, mypy)

Lint (eslint ., ruff check)

Sambungkan ini ke dalam aliran kerja ejen anda supaya ia berjalan selepas setiap perubahan.

Langkah 4: Skopkan Sesi Ejen

Jangan berikan ejen keseluruhan backlog anda. Sebaliknya:

Satu ciri bagi setiap sesi
Satu pembetulan pepijat bagi setiap sesi
Kriteria penerimaan yang jelas untuk setiap tugasan

Langkah 5: Lelarkan pada Harness

Setiap kali ejen melakukan kesilapan:

Kenal pasti punca utama
Tambah peraturan, kekangan, atau hook yang menghalangnya
Uji pembetulan tersebut

Lama-kelamaan, harness anda menjadi lebih baik dan ejen anda menjadi lebih boleh dipercayai — tanpa menaik taraf model.

Kejuruteraan Harness vs. Kejuruteraan Prom

Kejuruteraan Prom	Kejuruteraan Harness
Fokus	Apa yang anda katakan kepada model	Apa yang anda bina di sekeliling model
Ketahanan	Rapuh, bergantung kepada model	Teguh, agnostik-model
Peningkatan	Tidak bertambah baik mengikut masa	Menjadi lebih baik dengan setiap lelaran
Skop	Interaksi tunggal	Keseluruhan aliran kerja
Jenis kemahiran	Penulisan	Kejuruteraan sistem

Kejuruteraan prom masih berguna, tetapi ia hanyalah sebahagian kecil daripada gambaran keseluruhan. Kejuruteraan harness adalah penggandanya.

Peranan Baru: Jurutera Harness

Kejuruteraan kini berpecah kepada dua bahagian:

Pembinaan Persekitaran — mewujudkan struktur, alatan, kekangan, dan gelung maklum balas
Pengurusan Kerja — merancang, menyemak, dan menyelaraskan sesi ejen selari

Jurutera yang berkembang maju pada tahun 2026 bukanlah mereka yang menulis kod paling banyak. Mereka adalah mereka yang membina persekitaran terbaik untuk ejen menulis kod di dalamnya.

Jangan Keliru Dengan: Harness.io

Jika anda mencari "Harness Engineering" untuk mencari platform DevOps — Harness.io adalah perkara yang berbeza sama sekali. Ia adalah platform CI/CD dikuasakan AI bernilai $5.5B (setakat Disember 2025) yang menawarkan integrasi berterusan, penyampaian, bendera ciri (feature flags), pengurusan kos awan, dan ujian keselamatan.

Walaupun Harness.io dan kejuruteraan harness berkongsi nama yang sama, mereka menyelesaikan masalah yang berbeza. Walaupun terdapat pertindihan yang menarik: DevOps dikuasakan AI oleh Harness.io boleh dikatakan sebagai aplikasi prinsip kejuruteraan harness pada saluran paip penyebaran (deployment pipeline).

Kesimpulan

Model adalah enjin. Harness adalah kereta. Tiada sesiapa yang memenangi perlumbaan dengan hanya mempunyai enjin.

Jika anda menggunakan ejen pengekodan AI pada tahun 2026 dan tidak melabur dalam harness anda, anda mensia-siakan sebahagian besar nilainya. Mulakan dengan fail konteks, tambah kekangan, bina gelung pengesahan, dan lelar setiap kali sesuatu rosak.

Pasukan yang menghantar kod paling pantas tidak menggunakan model yang lebih baik. Mereka menggunakan harness yang lebih baik.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Kembali ke blog

26 Mac 2026·Y Build Team

Kejuruteraan Harness: Membina Sistem di Sekeliling Ejen AI (2026)

Kejuruteraan HarnessEjen AIEjen PengekodanClaude CodeCodexDevOpsKejuruteraan Perisian2026

TL;DR

Konsep	Ringkasan
Formula	Ejen = Model + Harness
Apa itu harness?	Segala-galanya di sekeliling model AI: konteks, kekangan, alatan, gelung pengesahan
Wawasan utama	LangChain meningkatkan ketepatan ejen daripada 52.8% → 66.5% hanya dengan menukar harness, bukan model
Siapa yang menggunakannya	OpenAI (Codex), Stripe (1,000+ PR/minggu), Anthropic, Vercel
Komponen teras	Kejuruteraan konteks, kekangan seni bina, alatan/MCP, sub-ejen, hook, pengesahan kendiri

Apa Itu Kejuruteraan Harness?

Kejuruteraan harness adalah disiplin membina sistem, alatan, kekangan, dan gelung maklum balas di sekeliling ejen pengekodan AI untuk menjadikannya boleh dipercayai dan produktif.

Istilah ini dicipta oleh Mitchell Hashimoto (pengasas bersama HashiCorp) dan mendapat perhatian meluas apabila OpenAI menerbitkan artikel Codex mereka mengenai topik ini pada awal tahun 2026.

Idea terasnya mudah:

Ejen = Model + Harness

Model menyediakan kecerdasan. Harness menjadikan kecerdasan itu berguna. Harness yang lebih baik selalunya lebih penting daripada model yang lebih baik.

Mengapa Ia Penting Sekarang

Prinsip panduan Mitchell Hashimoto:

"Setiap kali anda mendapati ejen melakukan kesilapan, anda meluangkan masa untuk merekayasa penyelesaian supaya ejen tersebut tidak akan melakukan kesilapan itu lagi."

Ini bukan kejuruteraan prom (prompt engineering). Ini adalah kejuruteraan sistem untuk AI.

Bukti: Harness > Model

Perubahan tersebut termasuk:

Fail konteks yang lebih baik (AGENTS.md)

Kekangan output berstruktur

Gelung pengesahan kendiri

Pengoptimuman alatan

Ini mengesahkan apa yang telah diperkatakan oleh pengamal: had silingnya bukan pada model. Ia adalah apa yang anda letakkan di sekelilingnya.

7 Komponen Harness

1. Kejuruteraan Konteks

Kejuruteraan konteks adalah asasnya. Di sinilah anda memberi ejen peta pangkalan kod anda, konvensyen anda, dan kekangan anda.

Dalam amalan:

Fail CLAUDE.md / AGENTS.md dalam akar repo anda
Peta direktori dan gambaran keseluruhan seni bina
Peraturan gaya pengekodan dan konvensyen penamaan

Peraturan utama: Pastikan fail konteks di bawah 60 baris. Ejen hilang fokus dengan dokumen yang panjang — berikan mereka peta, bukannya manual 1,000 halaman.

markdown

# Contoh CLAUDE.md
## Seni Bina
- src/app/ — halaman penunjuk arah aplikasi Next.js
- src/lib/ — utiliti kongsi dan klien API
- src/components/ — komponen React (gaya ditempatkan bersama)

## Peraturan
- Gunakan komponen pelayan secara lalai
- Jangan sesekali import dari node_modules secara langsung dalam komponen
- Semua panggilan API melalui src/lib/api.ts

2. Kekangan Seni Bina

Daripada berharap ejen memilih seni bina yang betul, uatkuasakannya.

Seni bina berlapis yang kaku disahkan oleh linter
Ujian struktur yang gagal jika corak dilanggar
Sekatan import melalui peraturan ESLint atau skrip tersuai

Ideanya: kekangkan ruang penyelesaian dan bukannya mengembangkannya. Pilihan sah yang lebih sedikit bermakna jawapan salah yang lebih sedikit.

3. Alatan & Pelayan MCP

Ejen memerlukan alatan untuk menjadi berkesan. Harness terbaik mendedahkan alatan dalaman melalui:

Pembalut CLI — lebih mengutamakan CLI yang terkenal (git, docker, npm) berbanding alatan tersuai
Pelayan MCP (Model Context Protocol) — membolehkan ejen memanggil API dalaman, pangkalan data, dan perkhidmatan anda
Akses sistem fail — dihadkan kepada direktori tertentu untuk mengelakkan kerosakan tidak sengaja

4. Sub-Ejen & Tembok Api Konteks

Sesi ejen yang berjalan lama mengumpul konteks yang akhirnya merosotkan prestasi — ini dipanggil reputan konteks (context rot).

Penyelesaiannya: sub-ejen dengan tembok api konteks (context firewalls).

Pecahkan tugasan kompleks kepada sub-tugasan diskret
Setiap sub-tugasan berjalan dalam sesinya sendiri dengan konteks yang segar
Hantar hanya keputusan berstruktur antara ejen, bukan perbualan mentah

Seni bina Anthropic yang diterbitkan menggunakan dua ejen:

Ejen Pemula (Initializer Agent) — merancang kerja, mencipta senarai ciri
Ejen Pengekodan (Coding Agent) — melaksanakan setiap ciri secara berasingan

5. Hook & Tekanan Balas (Back-Pressure)

Gelung maklum balas automatik yang mengesan kesilapan sebelum ia menjadi lebih teruk:

Pre-commit hooks — penyemakan jenis (type-checking), linting, pemformatan
Pelari ujian (Test runners) — ejen harus menjalankan ujian selepas setiap perubahan
Pengesahan binaan (Build verification) — gagal dengan cepat pada binaan yang rosak

6. Gelung Pengesahan Kendiri

Paksa ejen untuk mengesahkan kerja mereka sendiri sebelum menandakan tugasan sebagai selesai:

Jalankan set ujian selepas perubahan
Periksa sama ada binaan berjaya
Sahkan output sepadan dengan spesifikasi
Ambil tangkapan skrin dan bandingkan (untuk kerja UI)

Ini adalah perbezaan antara ejen yang "berfikir ia sudah selesai" dan ejen yang sebenarnya sudah selesai.

7. Dokumentasi Kemajuan

Untuk tugasan yang berjalan lama (30+ minit):

Kekalkan fail kemajuan yang menjejaki langkah-langkah yang telah selesai
Komit kerja dengan kerap supaya sesi seterusnya boleh menyambung semula
Gunakan senarai tugasan berstruktur, bukan nota bebas

Dengan cara ini, jika sesi ejen terhenti atau kehabisan konteks, sesi seterusnya akan menyambung dari tempat sesi terakhir berhenti.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.

Keputusan Dunia Sebenar

Pasukan OpenAI Codex

Harness mereka termasuk: konvensyen komit yang ketat, ujian automatik pada setiap PR, dan saluran paip CI/CD yang peka terhadap ejen.

"Minions" Stripe

Sistem dalaman Stripe menghasilkan 1,000+ PR yang digabungkan setiap minggu menggunakan ejen AI. Harness mereka termasuk:

Takrifan tugasan yang skopnya terhad
Semakan kod wajib oleh manusia
Ujian regresi automatik
Automasi pengunduran (rollback)

Seni Bina Dua Ejen Anthropic

Anthropic menerbitkan pendekatan mereka terhadap harness yang berkesan untuk ejen yang berjalan lama:

Senarai ciri berstruktur sebagai format serahan antara ejen
Penjejakan kemajuan berasaskan Git supaya ejen boleh menyambung semula selepas gangguan
Kriteria keluar eksplisit supaya ejen tahu bila perlu berhenti

Cara Mula Membina Harness Anda

Langkah 1: Cipta Fail Konteks Anda

Tambah CLAUDE.md (atau AGENTS.md) ke akar projek anda:

markdown

# Projek: [Projek Anda]

## Stack
[Rangka kerja, bahasa, pangkalan data, pengehosan]

## Seni Bina
[Struktur direktori dengan penerangan satu baris]

## Peraturan
[5-10 peraturan ketat yang mesti dipatuhi oleh ejen]

## Tugasan Biasa
[Cara menjalankan ujian, membina, menyebarkan]

Langkah 2: Tambah Kekangan Seni Bina

bash

# Contoh: Peraturan ESLint yang menghalang import DB langsung dalam komponen
# .eslintrc — peraturan no-restricted-imports

Sediakan pre-commit hooks yang menguatkuasakan peraturan anda secara automatik.

Langkah 3: Bina Gelung Pengesahan

Pastikan ejen anda boleh:

Menjalankan ujian (npm test, pytest, dsb.)

Memeriksa jenis (tsc --noEmit, mypy)

Lint (eslint ., ruff check)

Sambungkan ini ke dalam aliran kerja ejen anda supaya ia berjalan selepas setiap perubahan.

Langkah 4: Skopkan Sesi Ejen

Jangan berikan ejen keseluruhan backlog anda. Sebaliknya:

Satu ciri bagi setiap sesi
Satu pembetulan pepijat bagi setiap sesi
Kriteria penerimaan yang jelas untuk setiap tugasan

Langkah 5: Lelarkan pada Harness

Setiap kali ejen melakukan kesilapan:

Kenal pasti punca utama
Tambah peraturan, kekangan, atau hook yang menghalangnya
Uji pembetulan tersebut

Lama-kelamaan, harness anda menjadi lebih baik dan ejen anda menjadi lebih boleh dipercayai — tanpa menaik taraf model.

Kejuruteraan Harness vs. Kejuruteraan Prom

Kejuruteraan Prom	Kejuruteraan Harness
Fokus	Apa yang anda katakan kepada model	Apa yang anda bina di sekeliling model
Ketahanan	Rapuh, bergantung kepada model	Teguh, agnostik-model
Peningkatan	Tidak bertambah baik mengikut masa	Menjadi lebih baik dengan setiap lelaran
Skop	Interaksi tunggal	Keseluruhan aliran kerja
Jenis kemahiran	Penulisan	Kejuruteraan sistem

Kejuruteraan prom masih berguna, tetapi ia hanyalah sebahagian kecil daripada gambaran keseluruhan. Kejuruteraan harness adalah penggandanya.

Peranan Baru: Jurutera Harness

Kejuruteraan kini berpecah kepada dua bahagian:

Pembinaan Persekitaran — mewujudkan struktur, alatan, kekangan, dan gelung maklum balas
Pengurusan Kerja — merancang, menyemak, dan menyelaraskan sesi ejen selari

Jurutera yang berkembang maju pada tahun 2026 bukanlah mereka yang menulis kod paling banyak. Mereka adalah mereka yang membina persekitaran terbaik untuk ejen menulis kod di dalamnya.

Jangan Keliru Dengan: Harness.io

Kesimpulan

Model adalah enjin. Harness adalah kereta. Tiada sesiapa yang memenangi perlumbaan dengan hanya mempunyai enjin.

Pasukan yang menghantar kod paling pantas tidak menggunakan model yang lebih baik. Mereka menggunakan harness yang lebih baik.

Limited Early Access

Be first to build with AI

Y Build is the AI-era operating system for startups. Join the waitlist and get early access.