Harness Engineering: Build Systems Around AI Agents (2026)

TL;DR

מושג	סיכום
נוסחה	סוכן = מודל + רתמה
מהי רתמה (Harness)?	כל מה שמסביב למודל ה-AI: קונטקסט, אילוצים, כלים, לולאות אימות
תובנה מרכזית	LangChain שיפרו את דיוק הסוכן מ-52.8% ל-66.5% רק על ידי שינוי הרתמה, מבלי לשנות את המודל
מי משתמש בזה	OpenAI (Codex), Stripe (1,000+ PRs בשבוע), Anthropic, Vercel
רכיבי ליבה	הנדסת קונטקסט, אילוצים ארכיטקטוניים, כלים/MCP, סוכני-משנה, Hooks, אימות עצמי

מהי הנדסת רתמה (Harness Engineering)?

הנדסת רתמה היא הדיסציפלינה של בניית מערכות, כלים, אילוצים ולולאות משוב סביב סוכני תכנות מבוססי AI כדי להפוך אותם לאמינים ופרודוקטיביים.

המונח נטבע על ידי Mitchell Hashimoto (מייסד שותף של HashiCorp) וזכה לתשומת לב נרחבת כאשר OpenAI פרסמו את מאמר ה-Codex שלהם בנושא בתחילת 2026.

הרעיון המרכזי הוא פשוט:

סוכן = מודל + רתמה

המודל מספק את הבינה. הרתמה הופכת את הבינה הזו לשימושית. רתמה טובה יותר לרוב חשובה יותר ממודל טוב יותר.

למה זה חשוב עכשיו

בשנת 2025, כל צוות אימץ סוכני תכנות מבוססי AI. בשנת 2026, הצוותים המנצחים הם אלו שהנדסו את סביבות הסוכנים שלהם — ולא רק בחרו את המודל הטוב ביותר.

עקרון המפתח של Mitchell Hashimoto:

"בכל פעם שאתה מוצא שסוכן עושה טעות, הקדש את הזמן להנדס פתרון כך שהסוכן לעולם לא יחזור על הטעות הזו שוב."

זוהי לא הנדסת פרומפטים (prompt engineering). זוהי הנדסת מערכות עבור AI.

הראיות: רתמה > מודל

LangChain הריצו ניסוי מבוקר על Terminal Bench 2.0. ללא שינוי המודל הבסיסי, הם שיפרו את דיוק סוכן התכנות שלהם מ-52.8% ל-66.5% — שיפור של 26% — רק על ידי שיפור הרתמה.

השינויים כללו:

קובצי קונטקסט טובים יותר (AGENTS.md)

אילוצי פלט מובנים (Structured output)

לולאות אימות עצמי

אופטימיזציה של כלים

זה מאשר את מה שאנשי מקצוע אומרים: התקרה היא לא המודל. היא מה שאתם שמים מסביבו.

7 הרכיבים של רתמה

1. הנדסת קונטקסט (Context Engineering)

הנדסת קונטקסט היא הבסיס. זה המקום שבו אתם נותנים לסוכן מפה של בסיס הקוד שלכם, המוסכמות שלכם והאילוצים שלכם.

בפועל:

קובצי CLAUDE.md / AGENTS.md בשורש התיקייה (repo root)
מפות תיקיות וסקירות ארכיטקטורה
חוקי סגנון כתיבה (Coding style) ומוסכמות שמות

כלל מפתח: שמרו על קובצי הקונטקסט תחת 60 שורות. סוכנים מאבדים ריכוז במסמכים ארוכים — תנו להם מפה, לא מדריך של 1,000 עמודים.

markdown

# דוגמה ל-CLAUDE.md
## Architecture
- src/app/ — Next.js app router pages
- src/lib/ — shared utilities and API clients
- src/components/ — React components (co-located styles)

## Rules
- Use server components by default
- Never import from node_modules directly in components
- All API calls go through src/lib/api.ts

2. אילוצים ארכיטקטוניים

במקום לקוות שהסוכן יבחר בארכיטקטורה הנכונה, אכפו אותה.

ארכיטקטורות שכבות קשיחות המאומתות על ידי linters
בדיקות מבניות שנכשלות אם דפוסים מופרים
הגבלות ייבוא (Import) דרך חוקי ESLint או סקריפטים מותאמים אישית

הרעיון: צמצמו את מרחב הפתרונות במקום להרחיב אותו. פחות אפשרויות תקפות פירושן פחות תשובות שגויות.

3. כלים ושרתי MCP

סוכנים זקוקים לכלים כדי להיות אפקטיביים. הרתמות הטובות ביותר חושפות כלי עבודה פנימיים דרך:

מעטפות CLI — העדיפו כלי CLI מוכרים (git, docker, npm) על פני כלים מותאמים אישית
שרתי MCP (Model Context Protocol) — אפשרו לסוכנים לקרוא ל-APIs הפנימיים, לבסיסי הנתונים ולשירותים שלכם
גישה למערכת הקבצים — מוגבלת לתיקיות ספציפיות כדי למנוע נזק מקרי

טיפ מקצועי: העדיפו כלים סטנדרטיים ומתועדים היטב. סוכן יכול להשתמש ב-git בצורה מושלמת כי יש לו כמות אדירה של נתוני אימון עליו. CLI מותאם אישית ללא דוקומנטציה יבלבל אותו.

4. סוכני-משנה וחומות אש לקונטקסט

סשנים ארוכים של סוכנים צוברים קונטקסט שבסופו של דבר פוגע בביצועים — זה נקרא ריקבון קונטקסט (context rot).

הפתרון: סוכני-משנה עם חומות אש לקונטקסט.

פירקו משימות מורכבות לתתי-משימות בדידות
כל תת-משימה רצה בסשן משלה עם קונטקסט רענן
העבירו רק תוצאות מובנות (structured results) בין סוכנים, לא את השיחה הגולמית

הארכיטקטורה שפרסמה Anthropic משתמשת בשני סוכנים:

סוכן אתחול (Initializer Agent) — מתכנן את העבודה, יוצר רשימת פיצ'רים
סוכן תכנות (Coding Agent) — מבצע כל פיצ'ר בבידוד

5. Hooks ולחץ נגדי (Back-Pressure)

לולאות משוב אוטומטיות שתופסות טעויות לפני שהן נערמות:

Pre-commit hooks — בדיקת טיפוסים (type-checking), linting, formatting
מריצי בדיקות (Test runners) — סוכנים צריכים להריץ בדיקות אחרי כל שינוי
אימות Build — כישלון מהיר ב-builds שבורים

כלל עיצוב קריטי: הציפו כשלונות בצורה ברורה, אך לעולם אל תשפכו פלט הצלחה מפורט לתוך הקונטקסט של הסוכן. הצלחה צריכה להיות שקטה. כשלונות צריכים להיות רועשים.

6. לולאות אימות עצמי

הכריחו סוכנים לאמת את העבודה של עצמם לפני סימון משימות כהושלמו:

הריצו את סט הבדיקות לאחר שינויים
בידקו שה-build עובר
וודאו שהפלט תואם למפרט
צלמו צילום מסך והשוו (עבור עבודת UI)

זה ההבדל בין סוכן ש"חושב שהוא סיים" לבין כזה שבאמת סיים.

7. תיעוד התקדמות

עבור משימות ארוכות טווח (30 דקות ומעלה):

תחזקו קובץ התקדמות העוקב אחר שלבים שהושלמו
בצעו Commit לעבודה לעיתים קרובות כדי שסשנים עוקבים יוכלו להמשיך
השתמשו ברשימות משימות מובנות, לא בהערות חופשיות

בדרך זו, אם סשן של סוכן קורס או נגמר לו הקונטקסט, הסשן הבא ממשיך מהנקודה שבה האחרון הפסיק.

תוצאות מהעולם האמיתי

צוות OpenAI Codex

3 מהנדסים ייצרו בסיס קוד של מיליון שורות עם אפס קוד שנכתב ידנית במשך 5 חודשים. הם הגיעו לממוצע של 3.5 PRs ממוזגים למהנדס ביום — תפוקה שאינה אפשרית ללא רתמה בוגרת.

הרתמה שלהם כללה: מוסכמות commit קשיחות, בדיקות אוטומטיות בכל PR, ופייפליינים של CI/CD המותאמים לסוכנים.

ה-"Minions" של Stripe

המערכת הפנימית של Stripe מייצרת מעל 1,000 PRs ממוזגים בשבוע באמצעות סוכני AI. הרתמה שלהם כוללת:

הגדרות משימה מוגדרות היטב (scoped)
סקירת קוד חובה על ידי בני אדם
בדיקות רגרסיה אוטומטיות
אוטומציה של Rollback

ארכיטקטורת שני הסוכנים של Anthropic

Anthropic פרסמה את הגישה שלה לרתמות אפקטיביות עבור סוכנים הפועלים לזמן ארוך:

רשימות פיצ'רים מובנות כפורמט ההעברה בין סוכנים
מעקב התקדמות מבוסס Git כך שסוכנים יכולים להמשיך לאחר הפרעה
קריטריוני יציאה מפורשים כדי שסוכנים ידעו מתי לעצור

איך להתחיל לבנות את הרתמה שלכם

שלב 1: צרו את קובץ הקונטקסט שלכם

הוסיפו CLAUDE.md (או AGENTS.md) לשורש הפרויקט שלכם:

markdown

# Project: [Your Project]

## Stack
[Framework, language, database, hosting]

## Architecture
[Directory structure with one-line descriptions]

## Rules
[5-10 hard rules the agent must follow]

## Common Tasks
[How to run tests, build, deploy]

שלב 2: הוסיפו אילוצים מבניים

bash

# Example: ESLint rule preventing direct DB imports in components
# .eslintrc — no-restricted-imports rule

הגדירו pre-commit hooks האוכפים את החוקים שלכם באופן אוטומטי.

שלב 3: בנו לולאות אימות

וודאו שהסוכן שלכם יכול:

להריץ בדיקות (npm test, pytest, וכדומה)

לבדוק טיפוסים (tsc --noEmit, mypy)

לבצע Lint (eslint ., ruff check)

חברו את אלו לתוך זרימת העבודה של הסוכן כך שהם ירוצו אחרי כל שינוי.

שלב 4: הגדירו את היקף (Scope) סשן הסוכן

אל תתנו לסוכן את כל ה-backlog שלכם. במקום זאת:

פיצ'ר אחד לסשן
תיקון באג אחד לסשן
קריטריוני קבלה ברורים לכל משימה

שלב 5: שפרו את הרתמה באופן איטרטיבי

בכל פעם שסוכן טועה:

זהו את סיבת השורש (root cause)
הוסיפו חוק, אילוץ או hook שמונע זאת
בדקו את התיקון

עם הזמן, הרתמה שלכם משתפרת והסוכנים שלכם הופכים לאמינים יותר — מבלי לשדרג את המודל.

הנדסת רתמה לעומת הנדסת פרומפטים

הנדסת פרומפטים	הנדסת רתמה
מיקוד	מה שאתה אומר למודל	מה שאתה בונה סביב המודל
עמידות	שברירי, תלוי במודל	חסון, בלתי תלוי במודל (Agnostic)
צבירת ערך	לא משתפר עם הזמן	משתפר עם כל איטרציה
היקף	אינטראקציה בודדת	זרימת עבודה שלמה
סוג מיומנות	כתיבה	הנדסת מערכות

הנדסת פרומפטים עדיין שימושית, אבל היא רק חלק קטן מהתמונה. הנדסת רתמה היא המכפיל.

התפקיד המתהווה: מהנדס רתמה (Harness Engineer)

ההנדסה מתפצלת לשני חצאים:

בניית סביבה — יצירת מבנה, כלים, אילוצים ולולאות משוב
ניהול עבודה — תכנון, סקירה ותזמור של סשני סוכנים מקבילים

המהנדסים שיצליחו ב-2026 הם לא אלו שכותבים הכי הרבה קוד. אלו הם האנשים שבונים את הסביבות הטובות ביותר עבור סוכנים שיכתבו בהן קוד.

לא להתבלבל עם: Harness.io

אם חיפשתם "Harness Engineering" וקיוויתם למצוא את פלטפורמת ה-DevOps — Harness.io הוא דבר נפרד לחלוטין. זוהי פלטפורמת CI/CD מבוססת AI המוערכת ב-5.5 מיליארד דולר (נכון לדצמבר 2025) המציעה אינטגרציה רציפה, פריסה, Feature flags, ניהול עלויות ענן ובדיקות אבטחה.

בעוד ש-Harness.io והנדסת רתמה חולקים שם דומה, הם פותרים בעיות שונות. אם כי ישנה חפיפה מעניינת: ה-DevOps מבוסס ה-AI של Harness.io הוא ללא ספק יישום של עקרונות הנדסת רתמה על פייפליין הפריסה.

שורה תחתונה

המודל הוא המנוע. הרתמה היא המכונית. אף אחד לא מנצח במירוץ עם מנוע בלבד.

אם אתם משתמשים בסוכני תכנות מבוססי AI ב-2026 ולא משקיעים ברתמה שלכם, אתם משאירים את רוב הערך על השולחן. התחילו עם קובץ קונטקסט, הוסיפו אילוצים, בנו לולאות אימות, ושפרו בכל פעם שמשהו נשבר.

הצוותים שמשלחים (shipping) הכי מהר לא משתמשים במודלים טובים יותר. הם משתמשים ברתמות טובות יותר.

TL;DR

מושג	סיכום
נוסחה	סוכן = מודל + רתמה
מהי רתמה (Harness)?	כל מה שמסביב למודל ה-AI: קונטקסט, אילוצים, כלים, לולאות אימות
תובנה מרכזית	LangChain שיפרו את דיוק הסוכן מ-52.8% ל-66.5% רק על ידי שינוי הרתמה, מבלי לשנות את המודל
מי משתמש בזה	OpenAI (Codex), Stripe (1,000+ PRs בשבוע), Anthropic, Vercel
רכיבי ליבה	הנדסת קונטקסט, אילוצים ארכיטקטוניים, כלים/MCP, סוכני-משנה, Hooks, אימות עצמי

מהי הנדסת רתמה (Harness Engineering)?

הרעיון המרכזי הוא פשוט:

סוכן = מודל + רתמה

המודל מספק את הבינה. הרתמה הופכת את הבינה הזו לשימושית. רתמה טובה יותר לרוב חשובה יותר ממודל טוב יותר.

למה זה חשוב עכשיו

עקרון המפתח של Mitchell Hashimoto:

"בכל פעם שאתה מוצא שסוכן עושה טעות, הקדש את הזמן להנדס פתרון כך שהסוכן לעולם לא יחזור על הטעות הזו שוב."

זוהי לא הנדסת פרומפטים (prompt engineering). זוהי הנדסת מערכות עבור AI.

הראיות: רתמה > מודל

השינויים כללו:

קובצי קונטקסט טובים יותר (AGENTS.md)

אילוצי פלט מובנים (Structured output)

לולאות אימות עצמי

אופטימיזציה של כלים

זה מאשר את מה שאנשי מקצוע אומרים: התקרה היא לא המודל. היא מה שאתם שמים מסביבו.

7 הרכיבים של רתמה

1. הנדסת קונטקסט (Context Engineering)

הנדסת קונטקסט היא הבסיס. זה המקום שבו אתם נותנים לסוכן מפה של בסיס הקוד שלכם, המוסכמות שלכם והאילוצים שלכם.

בפועל:

קובצי CLAUDE.md / AGENTS.md בשורש התיקייה (repo root)
מפות תיקיות וסקירות ארכיטקטורה
חוקי סגנון כתיבה (Coding style) ומוסכמות שמות

markdown

# דוגמה ל-CLAUDE.md
## Architecture
- src/app/ — Next.js app router pages
- src/lib/ — shared utilities and API clients
- src/components/ — React components (co-located styles)

## Rules
- Use server components by default
- Never import from node_modules directly in components
- All API calls go through src/lib/api.ts

2. אילוצים ארכיטקטוניים

במקום לקוות שהסוכן יבחר בארכיטקטורה הנכונה, אכפו אותה.

ארכיטקטורות שכבות קשיחות המאומתות על ידי linters
בדיקות מבניות שנכשלות אם דפוסים מופרים
הגבלות ייבוא (Import) דרך חוקי ESLint או סקריפטים מותאמים אישית

הרעיון: צמצמו את מרחב הפתרונות במקום להרחיב אותו. פחות אפשרויות תקפות פירושן פחות תשובות שגויות.

3. כלים ושרתי MCP

סוכנים זקוקים לכלים כדי להיות אפקטיביים. הרתמות הטובות ביותר חושפות כלי עבודה פנימיים דרך:

מעטפות CLI — העדיפו כלי CLI מוכרים (git, docker, npm) על פני כלים מותאמים אישית
שרתי MCP (Model Context Protocol) — אפשרו לסוכנים לקרוא ל-APIs הפנימיים, לבסיסי הנתונים ולשירותים שלכם
גישה למערכת הקבצים — מוגבלת לתיקיות ספציפיות כדי למנוע נזק מקרי

4. סוכני-משנה וחומות אש לקונטקסט

סשנים ארוכים של סוכנים צוברים קונטקסט שבסופו של דבר פוגע בביצועים — זה נקרא ריקבון קונטקסט (context rot).

הפתרון: סוכני-משנה עם חומות אש לקונטקסט.

פירקו משימות מורכבות לתתי-משימות בדידות
כל תת-משימה רצה בסשן משלה עם קונטקסט רענן
העבירו רק תוצאות מובנות (structured results) בין סוכנים, לא את השיחה הגולמית

הארכיטקטורה שפרסמה Anthropic משתמשת בשני סוכנים:

סוכן אתחול (Initializer Agent) — מתכנן את העבודה, יוצר רשימת פיצ'רים
סוכן תכנות (Coding Agent) — מבצע כל פיצ'ר בבידוד

5. Hooks ולחץ נגדי (Back-Pressure)

לולאות משוב אוטומטיות שתופסות טעויות לפני שהן נערמות:

Pre-commit hooks — בדיקת טיפוסים (type-checking), linting, formatting
מריצי בדיקות (Test runners) — סוכנים צריכים להריץ בדיקות אחרי כל שינוי
אימות Build — כישלון מהיר ב-builds שבורים

6. לולאות אימות עצמי

הכריחו סוכנים לאמת את העבודה של עצמם לפני סימון משימות כהושלמו:

הריצו את סט הבדיקות לאחר שינויים
בידקו שה-build עובר
וודאו שהפלט תואם למפרט
צלמו צילום מסך והשוו (עבור עבודת UI)

זה ההבדל בין סוכן ש"חושב שהוא סיים" לבין כזה שבאמת סיים.

7. תיעוד התקדמות

עבור משימות ארוכות טווח (30 דקות ומעלה):

תחזקו קובץ התקדמות העוקב אחר שלבים שהושלמו
בצעו Commit לעבודה לעיתים קרובות כדי שסשנים עוקבים יוכלו להמשיך
השתמשו ברשימות משימות מובנות, לא בהערות חופשיות

בדרך זו, אם סשן של סוכן קורס או נגמר לו הקונטקסט, הסשן הבא ממשיך מהנקודה שבה האחרון הפסיק.

תוצאות מהעולם האמיתי

צוות OpenAI Codex

הרתמה שלהם כללה: מוסכמות commit קשיחות, בדיקות אוטומטיות בכל PR, ופייפליינים של CI/CD המותאמים לסוכנים.

ה-"Minions" של Stripe

המערכת הפנימית של Stripe מייצרת מעל 1,000 PRs ממוזגים בשבוע באמצעות סוכני AI. הרתמה שלהם כוללת:

הגדרות משימה מוגדרות היטב (scoped)
סקירת קוד חובה על ידי בני אדם
בדיקות רגרסיה אוטומטיות
אוטומציה של Rollback

ארכיטקטורת שני הסוכנים של Anthropic

Anthropic פרסמה את הגישה שלה לרתמות אפקטיביות עבור סוכנים הפועלים לזמן ארוך:

רשימות פיצ'רים מובנות כפורמט ההעברה בין סוכנים
מעקב התקדמות מבוסס Git כך שסוכנים יכולים להמשיך לאחר הפרעה
קריטריוני יציאה מפורשים כדי שסוכנים ידעו מתי לעצור

איך להתחיל לבנות את הרתמה שלכם

שלב 1: צרו את קובץ הקונטקסט שלכם

הוסיפו CLAUDE.md (או AGENTS.md) לשורש הפרויקט שלכם:

markdown

# Project: [Your Project]

## Stack
[Framework, language, database, hosting]

## Architecture
[Directory structure with one-line descriptions]

## Rules
[5-10 hard rules the agent must follow]

## Common Tasks
[How to run tests, build, deploy]

שלב 2: הוסיפו אילוצים מבניים

bash

# Example: ESLint rule preventing direct DB imports in components
# .eslintrc — no-restricted-imports rule

הגדירו pre-commit hooks האוכפים את החוקים שלכם באופן אוטומטי.

שלב 3: בנו לולאות אימות

וודאו שהסוכן שלכם יכול:

להריץ בדיקות (npm test, pytest, וכדומה)

לבדוק טיפוסים (tsc --noEmit, mypy)

לבצע Lint (eslint ., ruff check)

חברו את אלו לתוך זרימת העבודה של הסוכן כך שהם ירוצו אחרי כל שינוי.

שלב 4: הגדירו את היקף (Scope) סשן הסוכן

אל תתנו לסוכן את כל ה-backlog שלכם. במקום זאת:

פיצ'ר אחד לסשן
תיקון באג אחד לסשן
קריטריוני קבלה ברורים לכל משימה

שלב 5: שפרו את הרתמה באופן איטרטיבי

בכל פעם שסוכן טועה:

זהו את סיבת השורש (root cause)
הוסיפו חוק, אילוץ או hook שמונע זאת
בדקו את התיקון

עם הזמן, הרתמה שלכם משתפרת והסוכנים שלכם הופכים לאמינים יותר — מבלי לשדרג את המודל.

הנדסת רתמה לעומת הנדסת פרומפטים

הנדסת פרומפטים	הנדסת רתמה
מיקוד	מה שאתה אומר למודל	מה שאתה בונה סביב המודל
עמידות	שברירי, תלוי במודל	חסון, בלתי תלוי במודל (Agnostic)
צבירת ערך	לא משתפר עם הזמן	משתפר עם כל איטרציה
היקף	אינטראקציה בודדת	זרימת עבודה שלמה
סוג מיומנות	כתיבה	הנדסת מערכות

הנדסת פרומפטים עדיין שימושית, אבל היא רק חלק קטן מהתמונה. הנדסת רתמה היא המכפיל.

התפקיד המתהווה: מהנדס רתמה (Harness Engineer)

ההנדסה מתפצלת לשני חצאים:

בניית סביבה — יצירת מבנה, כלים, אילוצים ולולאות משוב
ניהול עבודה — תכנון, סקירה ותזמור של סשני סוכנים מקבילים

לא להתבלבל עם: Harness.io

שורה תחתונה

המודל הוא המנוע. הרתמה היא המכונית. אף אחד לא מנצח במירוץ עם מנוע בלבד.

הצוותים שמשלחים (shipping) הכי מהר לא משתמשים במודלים טובים יותר. הם משתמשים ברתמות טובות יותר.