Harness Engineering: Build Systems Around AI Agents (2026)
הנדסת רתמה היא הדרך שבה צוותים מובילים הופכים סוכני תכנות מבוססי AI לאמינים. למדו את הנוסחה סוכן = מודל + רתמה, רכיבי ליבה ותוצאות אמיתיות מ-OpenAI, Stripe ו-Anthropic.
TL;DR
| מושג | סיכום |
|---|---|
| נוסחה | סוכן = מודל + רתמה |
| מהי רתמה (Harness)? | כל מה שמסביב למודל ה-AI: קונטקסט, אילוצים, כלים, לולאות אימות |
| תובנה מרכזית | LangChain שיפרו את דיוק הסוכן מ-52.8% ל-66.5% רק על ידי שינוי הרתמה, מבלי לשנות את המודל |
| מי משתמש בזה | OpenAI (Codex), Stripe (1,000+ PRs בשבוע), Anthropic, Vercel |
| רכיבי ליבה | הנדסת קונטקסט, אילוצים ארכיטקטוניים, כלים/MCP, סוכני-משנה, Hooks, אימות עצמי |
מהי הנדסת רתמה (Harness Engineering)?
הנדסת רתמה היא הדיסציפלינה של בניית מערכות, כלים, אילוצים ולולאות משוב סביב סוכני תכנות מבוססי AI כדי להפוך אותם לאמינים ופרודוקטיביים.
המונח נטבע על ידי Mitchell Hashimoto (מייסד שותף של HashiCorp) וזכה לתשומת לב נרחבת כאשר OpenAI פרסמו את מאמר ה-Codex שלהם בנושא בתחילת 2026.
הרעיון המרכזי הוא פשוט:
סוכן = מודל + רתמה
המודל מספק את הבינה. הרתמה הופכת את הבינה הזו לשימושית. רתמה טובה יותר לרוב חשובה יותר ממודל טוב יותר.
למה זה חשוב עכשיו
בשנת 2025, כל צוות אימץ סוכני תכנות מבוססי AI. בשנת 2026, הצוותים המנצחים הם אלו שהנדסו את סביבות הסוכנים שלהם — ולא רק בחרו את המודל הטוב ביותר.
עקרון המפתח של Mitchell Hashimoto:
"בכל פעם שאתה מוצא שסוכן עושה טעות, הקדש את הזמן להנדס פתרון כך שהסוכן לעולם לא יחזור על הטעות הזו שוב."
זוהי לא הנדסת פרומפטים (prompt engineering). זוהי הנדסת מערכות עבור AI.
הראיות: רתמה > מודל
LangChain הריצו ניסוי מבוקר על Terminal Bench 2.0. ללא שינוי המודל הבסיסי, הם שיפרו את דיוק סוכן התכנות שלהם מ-52.8% ל-66.5% — שיפור של 26% — רק על ידי שיפור הרתמה.
השינויים כללו:
- קובצי קונטקסט טובים יותר (AGENTS.md)
- אילוצי פלט מובנים (Structured output)
- לולאות אימות עצמי
- אופטימיזציה של כלים
זה מאשר את מה שאנשי מקצוע אומרים: התקרה היא לא המודל. היא מה שאתם שמים מסביבו.
7 הרכיבים של רתמה
1. הנדסת קונטקסט (Context Engineering)
הנדסת קונטקסט היא הבסיס. זה המקום שבו אתם נותנים לסוכן מפה של בסיס הקוד שלכם, המוסכמות שלכם והאילוצים שלכם.
בפועל:- קובצי
CLAUDE.md/AGENTS.mdבשורש התיקייה (repo root) - מפות תיקיות וסקירות ארכיטקטורה
- חוקי סגנון כתיבה (Coding style) ומוסכמות שמות
# דוגמה ל-CLAUDE.md
## Architecture
- src/app/ — Next.js app router pages
- src/lib/ — shared utilities and API clients
- src/components/ — React components (co-located styles)
## Rules
- Use server components by default
- Never import from node_modules directly in components
- All API calls go through src/lib/api.ts
2. אילוצים ארכיטקטוניים
במקום לקוות שהסוכן יבחר בארכיטקטורה הנכונה, אכפו אותה.
- ארכיטקטורות שכבות קשיחות המאומתות על ידי linters
- בדיקות מבניות שנכשלות אם דפוסים מופרים
- הגבלות ייבוא (Import) דרך חוקי ESLint או סקריפטים מותאמים אישית
3. כלים ושרתי MCP
סוכנים זקוקים לכלים כדי להיות אפקטיביים. הרתמות הטובות ביותר חושפות כלי עבודה פנימיים דרך:
- מעטפות CLI — העדיפו כלי CLI מוכרים (git, docker, npm) על פני כלים מותאמים אישית
- שרתי MCP (Model Context Protocol) — אפשרו לסוכנים לקרוא ל-APIs הפנימיים, לבסיסי הנתונים ולשירותים שלכם
- גישה למערכת הקבצים — מוגבלת לתיקיות ספציפיות כדי למנוע נזק מקרי
git בצורה מושלמת כי יש לו כמות אדירה של נתוני אימון עליו. CLI מותאם אישית ללא דוקומנטציה יבלבל אותו.
4. סוכני-משנה וחומות אש לקונטקסט
סשנים ארוכים של סוכנים צוברים קונטקסט שבסופו של דבר פוגע בביצועים — זה נקרא ריקבון קונטקסט (context rot).
הפתרון: סוכני-משנה עם חומות אש לקונטקסט.
- פירקו משימות מורכבות לתתי-משימות בדידות
- כל תת-משימה רצה בסשן משלה עם קונטקסט רענן
- העבירו רק תוצאות מובנות (structured results) בין סוכנים, לא את השיחה הגולמית
- סוכן אתחול (Initializer Agent) — מתכנן את העבודה, יוצר רשימת פיצ'רים
- סוכן תכנות (Coding Agent) — מבצע כל פיצ'ר בבידוד
5. Hooks ולחץ נגדי (Back-Pressure)
לולאות משוב אוטומטיות שתופסות טעויות לפני שהן נערמות:
- Pre-commit hooks — בדיקת טיפוסים (type-checking), linting, formatting
- מריצי בדיקות (Test runners) — סוכנים צריכים להריץ בדיקות אחרי כל שינוי
- אימות Build — כישלון מהיר ב-builds שבורים
6. לולאות אימות עצמי
הכריחו סוכנים לאמת את העבודה של עצמם לפני סימון משימות כהושלמו:
- הריצו את סט הבדיקות לאחר שינויים
- בידקו שה-build עובר
- וודאו שהפלט תואם למפרט
- צלמו צילום מסך והשוו (עבור עבודת UI)
7. תיעוד התקדמות
עבור משימות ארוכות טווח (30 דקות ומעלה):
- תחזקו קובץ התקדמות העוקב אחר שלבים שהושלמו
- בצעו Commit לעבודה לעיתים קרובות כדי שסשנים עוקבים יוכלו להמשיך
- השתמשו ברשימות משימות מובנות, לא בהערות חופשיות
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
תוצאות מהעולם האמיתי
צוות OpenAI Codex
3 מהנדסים ייצרו בסיס קוד של מיליון שורות עם אפס קוד שנכתב ידנית במשך 5 חודשים. הם הגיעו לממוצע של 3.5 PRs ממוזגים למהנדס ביום — תפוקה שאינה אפשרית ללא רתמה בוגרת.
הרתמה שלהם כללה: מוסכמות commit קשיחות, בדיקות אוטומטיות בכל PR, ופייפליינים של CI/CD המותאמים לסוכנים.
ה-"Minions" של Stripe
המערכת הפנימית של Stripe מייצרת מעל 1,000 PRs ממוזגים בשבוע באמצעות סוכני AI. הרתמה שלהם כוללת:
- הגדרות משימה מוגדרות היטב (scoped)
- סקירת קוד חובה על ידי בני אדם
- בדיקות רגרסיה אוטומטיות
- אוטומציה של Rollback
ארכיטקטורת שני הסוכנים של Anthropic
Anthropic פרסמה את הגישה שלה לרתמות אפקטיביות עבור סוכנים הפועלים לזמן ארוך:
- רשימות פיצ'רים מובנות כפורמט ההעברה בין סוכנים
- מעקב התקדמות מבוסס Git כך שסוכנים יכולים להמשיך לאחר הפרעה
- קריטריוני יציאה מפורשים כדי שסוכנים ידעו מתי לעצור
איך להתחיל לבנות את הרתמה שלכם
שלב 1: צרו את קובץ הקונטקסט שלכם
הוסיפו CLAUDE.md (או AGENTS.md) לשורש הפרויקט שלכם:
# Project: [Your Project]
## Stack
[Framework, language, database, hosting]
## Architecture
[Directory structure with one-line descriptions]
## Rules
[5-10 hard rules the agent must follow]
## Common Tasks
[How to run tests, build, deploy]
שלב 2: הוסיפו אילוצים מבניים
# Example: ESLint rule preventing direct DB imports in components
# .eslintrc — no-restricted-imports rule
הגדירו pre-commit hooks האוכפים את החוקים שלכם באופן אוטומטי.
שלב 3: בנו לולאות אימות
וודאו שהסוכן שלכם יכול:
- להריץ בדיקות (
npm test,pytest, וכדומה) - לבדוק טיפוסים (
tsc --noEmit,mypy) - לבצע Lint (
eslint .,ruff check)
חברו את אלו לתוך זרימת העבודה של הסוכן כך שהם ירוצו אחרי כל שינוי.
שלב 4: הגדירו את היקף (Scope) סשן הסוכן
אל תתנו לסוכן את כל ה-backlog שלכם. במקום זאת:
- פיצ'ר אחד לסשן
- תיקון באג אחד לסשן
- קריטריוני קבלה ברורים לכל משימה
שלב 5: שפרו את הרתמה באופן איטרטיבי
בכל פעם שסוכן טועה:
- זהו את סיבת השורש (root cause)
- הוסיפו חוק, אילוץ או hook שמונע זאת
- בדקו את התיקון
הנדסת רתמה לעומת הנדסת פרומפטים
| הנדסת פרומפטים | הנדסת רתמה | |
|---|---|---|
| מיקוד | מה שאתה אומר למודל | מה שאתה בונה סביב המודל |
| עמידות | שברירי, תלוי במודל | חסון, בלתי תלוי במודל (Agnostic) |
| צבירת ערך | לא משתפר עם הזמן | משתפר עם כל איטרציה |
| היקף | אינטראקציה בודדת | זרימת עבודה שלמה |
| סוג מיומנות | כתיבה | הנדסת מערכות |
הנדסת פרומפטים עדיין שימושית, אבל היא רק חלק קטן מהתמונה. הנדסת רתמה היא המכפיל.
התפקיד המתהווה: מהנדס רתמה (Harness Engineer)
ההנדסה מתפצלת לשני חצאים:
- בניית סביבה — יצירת מבנה, כלים, אילוצים ולולאות משוב
- ניהול עבודה — תכנון, סקירה ותזמור של סשני סוכנים מקבילים
לא להתבלבל עם: Harness.io
אם חיפשתם "Harness Engineering" וקיוויתם למצוא את פלטפורמת ה-DevOps — Harness.io הוא דבר נפרד לחלוטין. זוהי פלטפורמת CI/CD מבוססת AI המוערכת ב-5.5 מיליארד דולר (נכון לדצמבר 2025) המציעה אינטגרציה רציפה, פריסה, Feature flags, ניהול עלויות ענן ובדיקות אבטחה.
בעוד ש-Harness.io והנדסת רתמה חולקים שם דומה, הם פותרים בעיות שונות. אם כי ישנה חפיפה מעניינת: ה-DevOps מבוסס ה-AI של Harness.io הוא ללא ספק יישום של עקרונות הנדסת רתמה על פייפליין הפריסה.
שורה תחתונה
המודל הוא המנוע. הרתמה היא המכונית. אף אחד לא מנצח במירוץ עם מנוע בלבד.
אם אתם משתמשים בסוכני תכנות מבוססי AI ב-2026 ולא משקיעים ברתמה שלכם, אתם משאירים את רוב הערך על השולחן. התחילו עם קובץ קונטקסט, הוסיפו אילוצים, בנו לולאות אימות, ושפרו בכל פעם שמשהו נשבר.
הצוותים שמשלחים (shipping) הכי מהר לא משתמשים במודלים טובים יותר. הם משתמשים ברתמות טובות יותר.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.