Kejuruteraan Harness: Membina Sistem di Sekeliling Ejen AI (2026)
Kejuruteraan harness adalah bagaimana pasukan terbaik menjadikan ejen pengekodan AI boleh dipercayai. Pelajari formula Ejen = Model + Harness, komponen teras, dan keputusan sebenar daripada OpenAI, Stripe, dan Anthropic.
TL;DR
| Konsep | Ringkasan |
|---|---|
| Formula | Ejen = Model + Harness |
| Apa itu harness? | Segala-galanya di sekeliling model AI: konteks, kekangan, alatan, gelung pengesahan |
| Wawasan utama | LangChain meningkatkan ketepatan ejen daripada 52.8% → 66.5% hanya dengan menukar harness, bukan model |
| Siapa yang menggunakannya | OpenAI (Codex), Stripe (1,000+ PR/minggu), Anthropic, Vercel |
| Komponen teras | Kejuruteraan konteks, kekangan seni bina, alatan/MCP, sub-ejen, hook, pengesahan kendiri |
Apa Itu Kejuruteraan Harness?
Kejuruteraan harness adalah disiplin membina sistem, alatan, kekangan, dan gelung maklum balas di sekeliling ejen pengekodan AI untuk menjadikannya boleh dipercayai dan produktif.
Istilah ini dicipta oleh Mitchell Hashimoto (pengasas bersama HashiCorp) dan mendapat perhatian meluas apabila OpenAI menerbitkan artikel Codex mereka mengenai topik ini pada awal tahun 2026.
Idea terasnya mudah:
Ejen = Model + Harness
Model menyediakan kecerdasan. Harness menjadikan kecerdasan itu berguna. Harness yang lebih baik selalunya lebih penting daripada model yang lebih baik.
Mengapa Ia Penting Sekarang
Pada tahun 2025, setiap pasukan menggunakan ejen pengekodan AI. Pada tahun 2026, pasukan yang menang adalah mereka yang merekayasa persekitaran ejen mereka — bukan sekadar memilih model terbaik.
Prinsip panduan Mitchell Hashimoto:
"Setiap kali anda mendapati ejen melakukan kesilapan, anda meluangkan masa untuk merekayasa penyelesaian supaya ejen tersebut tidak akan melakukan kesilapan itu lagi."
Ini bukan kejuruteraan prom (prompt engineering). Ini adalah kejuruteraan sistem untuk AI.
Bukti: Harness > Model
LangChain menjalankan eksperimen terkawal pada Terminal Bench 2.0. Tanpa menukar model asas, mereka meningkatkan ketepatan ejen pengekodan mereka daripada 52.8% kepada 66.5% — peningkatan sebanyak 26% — hanya dengan menambah baik harness.
Perubahan tersebut termasuk:
- Fail konteks yang lebih baik (AGENTS.md)
- Kekangan output berstruktur
- Gelung pengesahan kendiri
- Pengoptimuman alatan
Ini mengesahkan apa yang telah diperkatakan oleh pengamal: had silingnya bukan pada model. Ia adalah apa yang anda letakkan di sekelilingnya.
7 Komponen Harness
1. Kejuruteraan Konteks
Kejuruteraan konteks adalah asasnya. Di sinilah anda memberi ejen peta pangkalan kod anda, konvensyen anda, dan kekangan anda.
Dalam amalan:- Fail
CLAUDE.md/AGENTS.mddalam akar repo anda - Peta direktori dan gambaran keseluruhan seni bina
- Peraturan gaya pengekodan dan konvensyen penamaan
# Contoh CLAUDE.md
## Seni Bina
- src/app/ — halaman penunjuk arah aplikasi Next.js
- src/lib/ — utiliti kongsi dan klien API
- src/components/ — komponen React (gaya ditempatkan bersama)
## Peraturan
- Gunakan komponen pelayan secara lalai
- Jangan sesekali import dari node_modules secara langsung dalam komponen
- Semua panggilan API melalui src/lib/api.ts
2. Kekangan Seni Bina
Daripada berharap ejen memilih seni bina yang betul, uatkuasakannya.
- Seni bina berlapis yang kaku disahkan oleh linter
- Ujian struktur yang gagal jika corak dilanggar
- Sekatan import melalui peraturan ESLint atau skrip tersuai
3. Alatan & Pelayan MCP
Ejen memerlukan alatan untuk menjadi berkesan. Harness terbaik mendedahkan alatan dalaman melalui:
- Pembalut CLI — lebih mengutamakan CLI yang terkenal (git, docker, npm) berbanding alatan tersuai
- Pelayan MCP (Model Context Protocol) — membolehkan ejen memanggil API dalaman, pangkalan data, dan perkhidmatan anda
- Akses sistem fail — dihadkan kepada direktori tertentu untuk mengelakkan kerosakan tidak sengaja
git dengan sempurna kerana ia mempunyai data latihan yang sangat besar mengenainya. CLI tersuai tanpa dokumentasi akan mengelirukannya.
4. Sub-Ejen & Tembok Api Konteks
Sesi ejen yang berjalan lama mengumpul konteks yang akhirnya merosotkan prestasi — ini dipanggil reputan konteks (context rot).
Penyelesaiannya: sub-ejen dengan tembok api konteks (context firewalls).
- Pecahkan tugasan kompleks kepada sub-tugasan diskret
- Setiap sub-tugasan berjalan dalam sesinya sendiri dengan konteks yang segar
- Hantar hanya keputusan berstruktur antara ejen, bukan perbualan mentah
- Ejen Pemula (Initializer Agent) — merancang kerja, mencipta senarai ciri
- Ejen Pengekodan (Coding Agent) — melaksanakan setiap ciri secara berasingan
5. Hook & Tekanan Balas (Back-Pressure)
Gelung maklum balas automatik yang mengesan kesilapan sebelum ia menjadi lebih teruk:
- Pre-commit hooks — penyemakan jenis (type-checking), linting, pemformatan
- Pelari ujian (Test runners) — ejen harus menjalankan ujian selepas setiap perubahan
- Pengesahan binaan (Build verification) — gagal dengan cepat pada binaan yang rosak
6. Gelung Pengesahan Kendiri
Paksa ejen untuk mengesahkan kerja mereka sendiri sebelum menandakan tugasan sebagai selesai:
- Jalankan set ujian selepas perubahan
- Periksa sama ada binaan berjaya
- Sahkan output sepadan dengan spesifikasi
- Ambil tangkapan skrin dan bandingkan (untuk kerja UI)
7. Dokumentasi Kemajuan
Untuk tugasan yang berjalan lama (30+ minit):
- Kekalkan fail kemajuan yang menjejaki langkah-langkah yang telah selesai
- Komit kerja dengan kerap supaya sesi seterusnya boleh menyambung semula
- Gunakan senarai tugasan berstruktur, bukan nota bebas
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Keputusan Dunia Sebenar
Pasukan OpenAI Codex
3 jurutera menghasilkan sejuta baris kod dengan sifar kod yang ditulis secara manual selama 5 bulan. Mereka mencapai purata 3.5 PR yang digabungkan bagi setiap jurutera setiap hari — satu daya pemprosesan yang mustahil tanpa harness yang matang.
Harness mereka termasuk: konvensyen komit yang ketat, ujian automatik pada setiap PR, dan saluran paip CI/CD yang peka terhadap ejen.
"Minions" Stripe
Sistem dalaman Stripe menghasilkan 1,000+ PR yang digabungkan setiap minggu menggunakan ejen AI. Harness mereka termasuk:
- Takrifan tugasan yang skopnya terhad
- Semakan kod wajib oleh manusia
- Ujian regresi automatik
- Automasi pengunduran (rollback)
Seni Bina Dua Ejen Anthropic
Anthropic menerbitkan pendekatan mereka terhadap harness yang berkesan untuk ejen yang berjalan lama:
- Senarai ciri berstruktur sebagai format serahan antara ejen
- Penjejakan kemajuan berasaskan Git supaya ejen boleh menyambung semula selepas gangguan
- Kriteria keluar eksplisit supaya ejen tahu bila perlu berhenti
Cara Mula Membina Harness Anda
Langkah 1: Cipta Fail Konteks Anda
Tambah CLAUDE.md (atau AGENTS.md) ke akar projek anda:
# Projek: [Projek Anda]
## Stack
[Rangka kerja, bahasa, pangkalan data, pengehosan]
## Seni Bina
[Struktur direktori dengan penerangan satu baris]
## Peraturan
[5-10 peraturan ketat yang mesti dipatuhi oleh ejen]
## Tugasan Biasa
[Cara menjalankan ujian, membina, menyebarkan]
Langkah 2: Tambah Kekangan Seni Bina
# Contoh: Peraturan ESLint yang menghalang import DB langsung dalam komponen
# .eslintrc — peraturan no-restricted-imports
Sediakan pre-commit hooks yang menguatkuasakan peraturan anda secara automatik.
Langkah 3: Bina Gelung Pengesahan
Pastikan ejen anda boleh:
- Menjalankan ujian (
npm test,pytest, dsb.) - Memeriksa jenis (
tsc --noEmit,mypy) - Lint (
eslint .,ruff check)
Sambungkan ini ke dalam aliran kerja ejen anda supaya ia berjalan selepas setiap perubahan.
Langkah 4: Skopkan Sesi Ejen
Jangan berikan ejen keseluruhan backlog anda. Sebaliknya:
- Satu ciri bagi setiap sesi
- Satu pembetulan pepijat bagi setiap sesi
- Kriteria penerimaan yang jelas untuk setiap tugasan
Langkah 5: Lelarkan pada Harness
Setiap kali ejen melakukan kesilapan:
- Kenal pasti punca utama
- Tambah peraturan, kekangan, atau hook yang menghalangnya
- Uji pembetulan tersebut
Kejuruteraan Harness vs. Kejuruteraan Prom
| Kejuruteraan Prom | Kejuruteraan Harness | |
|---|---|---|
| Fokus | Apa yang anda katakan kepada model | Apa yang anda bina di sekeliling model |
| Ketahanan | Rapuh, bergantung kepada model | Teguh, agnostik-model |
| Peningkatan | Tidak bertambah baik mengikut masa | Menjadi lebih baik dengan setiap lelaran |
| Skop | Interaksi tunggal | Keseluruhan aliran kerja |
| Jenis kemahiran | Penulisan | Kejuruteraan sistem |
Kejuruteraan prom masih berguna, tetapi ia hanyalah sebahagian kecil daripada gambaran keseluruhan. Kejuruteraan harness adalah penggandanya.
Peranan Baru: Jurutera Harness
Kejuruteraan kini berpecah kepada dua bahagian:
- Pembinaan Persekitaran — mewujudkan struktur, alatan, kekangan, dan gelung maklum balas
- Pengurusan Kerja — merancang, menyemak, dan menyelaraskan sesi ejen selari
Jangan Keliru Dengan: Harness.io
Jika anda mencari "Harness Engineering" untuk mencari platform DevOps — Harness.io adalah perkara yang berbeza sama sekali. Ia adalah platform CI/CD dikuasakan AI bernilai $5.5B (setakat Disember 2025) yang menawarkan integrasi berterusan, penyampaian, bendera ciri (feature flags), pengurusan kos awan, dan ujian keselamatan.
Walaupun Harness.io dan kejuruteraan harness berkongsi nama yang sama, mereka menyelesaikan masalah yang berbeza. Walaupun terdapat pertindihan yang menarik: DevOps dikuasakan AI oleh Harness.io boleh dikatakan sebagai aplikasi prinsip kejuruteraan harness pada saluran paip penyebaran (deployment pipeline).
Kesimpulan
Model adalah enjin. Harness adalah kereta. Tiada sesiapa yang memenangi perlumbaan dengan hanya mempunyai enjin.
Jika anda menggunakan ejen pengekodan AI pada tahun 2026 dan tidak melabur dalam harness anda, anda mensia-siakan sebahagian besar nilainya. Mulakan dengan fail konteks, tambah kekangan, bina gelung pengesahan, dan lelar setiap kali sesuatu rosak.
Pasukan yang menghantar kod paling pantas tidak menggunakan model yang lebih baik. Mereka menggunakan harness yang lebih baik.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.