Harness Engineering: AI Agent-এর চারপাশে সিস্টেম তৈরি করা (2026)
টপ টিমগুলো যেভাবে AI coding agent-কে নির্ভরযোগ্য করে তোলে তার নাম হলো Harness engineering। Agent = Model + Harness ফর্মুলা, এর মূল উপাদান এবং OpenAI, Stripe ও Anthropic-এর বাস্তব ফলাফল সম্পর্কে জানুন।
TL;DR
| কনসেপ্ট | সারসংক্ষেপ |
|---|---|
| ফর্মুলা | Agent = Model + Harness |
| Harness কী? | AI মডেলের চারপাশের সবকিছু: context, constraints, tools, verification loops |
| মূল ইনসাইট | LangChain মডেল পরিবর্তন না করে শুধুমাত্র harness পরিবর্তনের মাধ্যমে এজেন্টের নির্ভুলতা 52.8% → 66.5% এ উন্নীত করেছে |
| কারা এটি ব্যবহার করছে | OpenAI (Codex), Stripe (প্রতি সপ্তাহে ১,০০০+ PRs), Anthropic, Vercel |
| মূল উপাদানসমূহ | Context engineering, architectural constraints, tools/MCP, sub-agents, hooks, self-verification |
Harness Engineering কী?
Harness engineering হলো AI coding agents-কে নির্ভরযোগ্য এবং উৎপাদনশীল করে তোলার জন্য তাদের চারপাশে সিস্টেম, টুলস, সীমাবদ্ধতা (constraints) এবং ফিডব্যাক লুপ তৈরি করার একটি পদ্ধতি।
এই টার্মটি Mitchell Hashimoto (HashiCorp-এর সহ-প্রতিষ্ঠাতা) প্রথম ব্যবহার করেন এবং ২০২৬ সালের শুরুর দিকে OpenAI তাদের Codex আর্টিকেলটি প্রকাশের পর এটি ব্যাপকভাবে পরিচিতি পায়।
এর মূল ধারণাটি সহজ:
Agent = Model + Harness
মডেল বুদ্ধিমত্তা প্রদান করে। Harness সেই বুদ্ধিমত্তাকে কার্যকর করে তোলে। একটি উন্নত মডেলের চেয়ে একটি উন্নত harness অনেক সময় বেশি গুরুত্বপূর্ণ হয়ে দাঁড়ায়।
এটি এখন কেন গুরুত্বপূর্ণ
২০২৫ সালে প্রতিটি টিম AI coding agents গ্রহণ করেছে। ২০২৬ সালে সেই টিমগুলোই সফল হচ্ছে যারা শুধু সেরা মডেল বেছে নেয়নি, বরং তাদের এজেন্ট এনভায়রনমেন্ট ইঞ্জিনিয়ারিং করেছে।
Mitchell Hashimoto-এর মূল নীতি হলো:
"যখনই দেখবেন কোনো এজেন্ট ভুল করছে, তখনই এমন একটি সলিউশন ইঞ্জিনিয়ারিং করুন যাতে এজেন্ট সেই ভুল আর দ্বিতীয়বার না করে।"
এটি শুধু প্রম্পট ইঞ্জিনিয়ারিং নয়। এটি AI-এর জন্য সিস্টেম ইঞ্জিনিয়ারিং।
প্রমাণ: Harness > Model
LangChain তাদের Terminal Bench 2.0-এ একটি নিয়ন্ত্রিত পরীক্ষা চালিয়েছে। মূল মডেলে কোনো পরিবর্তন না করেই, তারা তাদের কোডিং এজেন্টের নির্ভুলতা 52.8% থেকে 66.5%-এ নিয়ে গেছে — যা ২৬% উন্নতি — এবং এটি সম্ভব হয়েছে শুধুমাত্র harness উন্নত করার মাধ্যমে।
পরিবর্তনগুলোর মধ্যে ছিল:
- উন্নত কনটেক্সট ফাইল (AGENTS.md)
- স্ট্রাকচার্ড আউটপুট কনস্ট্রেইন্টস (Constraints)
- সেলফ-ভেরিফিকেশন লুপ
- টুল অপ্টিমাইজেশন
এটি প্রমাণ করে যে প্র্যাকটিশনাররা যা বলে আসছেন: সীমাবদ্ধতা মডেলে নয়, বরং আপনি এর চারপাশে কী যুক্ত করছেন তার ওপর নির্ভর করে।
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
একটি Harness-এর ৭টি উপাদান
১. Context Engineering
কনটেক্সট ইঞ্জিনিয়ারিং হলো ভিত্তি। এখানে আপনি এজেন্টকে আপনার কোডবেসের ম্যাপ, কনভেনশন এবং সীমাবদ্ধতাগুলোর ধারণা দেন।
বাস্তব প্রয়োগ:- আপনার রেপোজিটরির রুটে
CLAUDE.md/AGENTS.mdফাইল রাখা - ডিরেক্টরি ম্যাপ এবং আর্কিটেকচার ওভারভিউ প্রদান করা
- কোডিং স্টাইল রুলস এবং নেমিং কনভেনশন
# CLAUDE.md example
## Architecture
- src/app/ — Next.js app router pages
- src/lib/ — shared utilities and API clients
- src/components/ — React components (co-located styles)
## Rules
- Use server components by default
- Never import from node_modules directly in components
- All API calls go through src/lib/api.ts
২. Architectural Constraints
এজেন্ট সঠিক আর্কিটেকচার বেছে নেবে এই আশায় না থেকে, বরং এটি বাধ্যতামূলক করুন।
- লিন্টার (linter) দ্বারা ভ্যালিডেট করা কঠোর লেয়ারড আর্কিটেকচার
- প্যাটার্ন লঙ্ঘিত হলে স্ট্রাকচারাল টেস্ট ফেইল করা
- ESLint রুলস বা কাস্টম স্ক্রিপ্টের মাধ্যমে ইম্পোর্ট রেস্ট্রিকশন
৩. Tools ও MCP Servers
কার্যকর হওয়ার জন্য এজেন্টদের টুলের প্রয়োজন। সেরা harness-গুলো ইন্টারনাল টুলিং প্রকাশ করে:
- CLI wrappers — কাস্টম টুলিংয়ের চেয়ে সুপরিচিত CLI (git, docker, npm) ব্যবহার করা ভালো
- MCP (Model Context Protocol) servers — এজেন্টদের আপনার ইন্টারনাল API, ডাটাবেস এবং সার্ভিস কল করতে দিন
- File system access — দুর্ঘটনাবশত ক্ষতি এড়াতে নির্দিষ্ট ডিরেক্টরিতে সীমাবদ্ধ রাখা
git নিখুঁতভাবে ব্যবহার করতে পারে কারণ এর ওপর প্রচুর ট্রেনিং ডেটা আছে। ডকুমেন্টেশনহীন কাস্টম CLI একে বিভ্রান্ত করবে।
৪. Sub-Agents এবং Context Firewalls
দীর্ঘ সময় ধরে চলা এজেন্ট সেশনগুলোতে কনটেক্সট জমা হতে থাকে যা একসময় পারফরম্যান্স কমিয়ে দেয় — একে বলা হয় context rot।
সমাধান: context firewalls সহ সাব-এজেন্ট।
- জটিল কাজগুলোকে ছোট ছোট সাব-টাস্কে ভাগ করুন
- প্রতিটি সাব-টাস্ক একটি নতুন কনটেক্সট সহ নিজস্ব সেশনে চলে
- এজেন্টদের মধ্যে র ডেটা না পাঠিয়ে শুধুমাত্র স্ট্রাকচার্ড রেজাল্ট পাস করুন
৫. Hooks এবং Back-Pressure
অটোমেটেড ফিডব্যাক লুপ যা ভুলগুলো বড় হওয়ার আগেই ধরে ফেলে:
- Pre-commit hooks — টাইপ-চেকিং, লিন্টিং, ফরম্যাটিং
- Test runners — প্রতিটি পরিবর্তনের পর এজেন্টের টেস্ট রান করা উচিত
- Build verification — ব্রোকেন বিল্ডে দ্রুত ফেইল করা
৬. Self-Verification Loops
কাজ সম্পন্ন করার আগে এজেন্টদের নিজেদের কাজ যাচাই করতে বাধ্য করুন:
- পরিবর্তনের পর টেস্ট সুইট রান করা
- বিল্ড পাস করছে কিনা চেক করা
- আউটপুট স্পেসিফিকেশনের সাথে মিলছে কিনা যাচাই করা
- স্ক্রিনশট নেওয়া এবং তুলনা করা (UI কাজের জন্য)
৭. Progress Documentation
দীর্ঘসময় ধরে চলা কাজের জন্য (৩০+ মিনিট):
- একটি প্রগ্রেস ফাইল মেইনটেইন করুন যা সম্পন্ন হওয়া ধাপগুলো ট্র্যাক করে
- নিয়মিত কাজ কমিট করুন যাতে পরবর্তী সেশনগুলো সেখান থেকে শুরু করতে পারে
- এলোমেলো নোটের বদলে স্ট্রাকচার্ড টাস্ক লিস্ট ব্যবহার করুন
বাস্তব বিশ্বের ফলাফল
OpenAI Codex Team
৩ জন ইঞ্জিনিয়ার ৫ মাস ধরে কোনো ম্যানুয়াল কোড না লিখে একটি মিলিয়ন-লাইনের কোডবেস তৈরি করেছেন। তারা প্রতিদিন গড়ে প্রতি ইঞ্জিনিয়ার ৩.৫টি মার্জড PR তৈরি করেছেন — যা একটি উন্নত harness ছাড়া অসম্ভব।
তাদের harness-এর মধ্যে ছিল: কঠোর কমিট কনভেনশন, প্রতিটি PR-এ অটোমেটেড টেস্টিং এবং এজেন্ট-অ্যাওয়ার CI/CD পাইপলাইন।
Stripe-এর "Minions"
Stripe-এর ইন্টারনাল সিস্টেম AI এজেন্ট ব্যবহার করে প্রতি সপ্তাহে ১,০০০+ মার্জড PR তৈরি করে। তাদের harness-এ রয়েছে:
- সুনির্দিষ্ট টাস্ক ডেফিনিশন
- মানুষের দ্বারা বাধ্যতামূলক কোড রিভিউ
- অটোমেটেড রিগ্রেশন টেস্টিং
- রোলব্যাক অটোমেশন
Anthropic-এর Two-Agent Architecture
Anthropic দীর্ঘ সময় ধরে চলা এজেন্টদের জন্য কার্যকর harness-এর পদ্ধতি প্রকাশ করেছে:
- এজেন্টদের মধ্যে তথ্য আদান-প্রদানের ফরম্যাট হিসেবে স্ট্রাকচার্ড ফিচার লিস্ট
- Git-ভিত্তিক প্রগ্রেস ট্র্যাকিং যাতে বাধা পাওয়ার পর এজেন্ট পুনরায় শুরু করতে পারে
- স্পষ্ট এক্সিট ক্রাইটেরিয়া যাতে এজেন্ট জানে কখন থামতে হবে
কীভাবে আপনার Harness তৈরি শুরু করবেন
ধাপ ১: কনটেক্সট ফাইল তৈরি করুন
আপনার প্রজেক্টের রুটে একটি CLAUDE.md (বা AGENTS.md) যোগ করুন:
# Project: [Your Project]
## Stack
[Framework, language, database, hosting]
## Architecture
[Directory structure with one-line descriptions]
## Rules
[5-10 hard rules the agent must follow]
## Common Tasks
[How to run tests, build, deploy]
ধাপ ২: স্ট্রাকচারাল কনস্ট্রেইন্টস যোগ করুন
# Example: ESLint rule preventing direct DB imports in components
# .eslintrc — no-restricted-imports rule
প্রি-কমিট হুক সেট আপ করুন যা আপনার নিয়মগুলো অটোমেটিকভাবে কার্যকর করবে।
ধাপ ৩: বিল্ড ভেরিফিকেশন লুপ তৈরি করুন
নিশ্চিত করুন আপনার এজেন্ট যেন এগুলো করতে পারে:
১. টেস্ট রান করা (npm test, pytest, ইত্যাদি)
২. টাইপ চেক করা (tsc --noEmit, mypy)
৩. লিন্টিং (eslint ., ruff check)
এগুলোকে এজেন্টের ওয়ার্কফ্লোতে যুক্ত করুন যাতে প্রতি পরিবর্তনের পর এগুলো রান হয়।
ধাপ ৪: এজেন্ট সেশন সীমাবদ্ধ করুন
একটি এজেন্টকে আপনার পুরো ব্যাকলগ দেবেন না। এর পরিবর্তে:
- প্রতি সেশনে একটি ফিচার
- প্রতি সেশনে একটি বাগ ফিক্স
- প্রতিটি কাজের জন্য স্পষ্ট এক্সেপ্টেন্স ক্রাইটেরিয়া
ধাপ ৫: Harness-কে উন্নত করুন
প্রতিবার যখন একটি এজেন্ট ভুল করে:
১. ভুলের মূল কারণ খুঁজে বের করুন
২. একটি নিয়ম, কনস্ট্রেইন্ট বা হুক যোগ করুন যা এটি প্রতিরোধ করবে
৩. ফিক্সটি টেস্ট করুন
সময়ের সাথে সাথে আপনার harness আরও ভালো হবে এবং আপনার এজেন্টরা আরও নির্ভরযোগ্য হবে — মডেল আপগ্রেড না করেই।
Harness Engineering বনাম Prompt Engineering
| Prompt Engineering | Harness Engineering | |
|---|---|---|
| ফোকাস | আপনি মডেলকে কী বলছেন | আপনি মডেলের চারপাশে কী তৈরি করছেন |
| স্থায়িত্ব | ভঙ্গুর, মডেলের ওপর নির্ভরশীল | মজবুত, মডেলের ওপর নির্ভরশীল নয় |
| উন্নতি | সময়ের সাথে উন্নত হয় না | প্রতিটি ইটারেশনের সাথে আরও ভালো হয় |
| পরিধি | একক মিথস্ক্রিয়া (Interaction) | সম্পূর্ণ ওয়ার্কফ্লো |
| দক্ষতার ধরণ | রাইটিং | সিস্টেম ইঞ্জিনিয়ারিং |
প্রম্পট ইঞ্জিনিয়ারিং এখনও দরকারী, তবে এটি সামগ্রিক ছবির একটি ছোট অংশ মাত্র। Harness engineering হলো এর মাল্টিপ্লায়ার।
যার সাথে গুলিয়ে ফেলবেন না: Harness.io
আপনি যদি DevOps প্ল্যাটফর্মের সন্ধানে "Harness Engineering" সার্চ করে থাকেন — তবে Harness.io সম্পূর্ণ আলাদা একটি বিষয়। এটি একটি AI-চালিত CI/CD প্ল্যাটফর্ম যার মূল্য ৫.৫ বিলিয়ন ডলার (ডিসেম্বর ২০২৫ পর্যন্ত) যা কন্টিনিউয়াস ইন্টিগ্রেশন, ডেলিভারি, ফিচার ফ্ল্যাগ, ক্লাউড কস্ট ম্যানেজমেন্ট এবং সিকিউরিটি টেস্টিং অফার করে।
যদিও Harness.io এবং harness engineering-এর নাম একই, তারা ভিন্ন ভিন্ন সমস্যার সমাধান করছে। তবে একটি মজার মিল আছে: Harness.io-এর AI-চালিত DevOps মূলত ডিপ্লয়মেন্ট পাইপলাইনে harness engineering নীতিরই একটি প্রয়োগ।
শেষ কথা
মডেল হলো ইঞ্জিন। Harness হলো গাড়ি। কেউ শুধু ইঞ্জিন দিয়ে রেস জিততে পারে না।
আপনি যদি ২০২৬ সালে AI coding agents ব্যবহার করেন এবং আপনার harness-এ বিনিয়োগ না করেন, তবে আপনি এর আসল সুবিধাগুলো মিস করছেন। একটি কনটেক্সট ফাইল দিয়ে শুরু করুন, কনস্ট্রেইন্ট যোগ করুন, ভেরিফিকেশন লুপ তৈরি করুন এবং প্রতিবার কিছু ভুল হলে তা সংশোধন করুন।
সবচেয়ে দ্রুত শিপিং করা টিমগুলো ভালো মডেল ব্যবহার করছে না, তারা উন্নত harness ব্যবহার করছে।
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.