GPT-5.3 Codex: OpenAI-এর স্বায়ত্তশাসিত কোডিং এজেন্ট
OpenAI ৫ ফেব্রুয়ারি, ২০২৬-এ GPT-5.3 Codex রিলিজ করেছে — এটি প্রথম AI মডেল যা নিজেকে তৈরিতে সাহায্য করেছে। ৭৭.৩% Terminal-Bench, ৫৬.৮% SWE-Bench Pro, স্বায়ত্তশাসিত বহু-ঘন্টার কোডিং সেশন। এর ফিচার, বেঞ্চমার্ক এবং Claude Code-এর সাথে তুলনার পূর্ণাঙ্গ বিশ্লেষণ।
TL;DR
OpenAI ৫ ফেব্রুয়ারি, ২০২৬-এ GPT-5.3 Codex রিলিজ করেছে — ঠিক যে দিন Anthropic তাদের Opus 4.6 লঞ্চ করেছিল। মূল পরিসংখ্যান:
- Terminal-Bench 2.0: ৭৭.৩% — এজেন্টিক টার্মিনাল কোডিংয়ে সব মডেলের মধ্যে শীর্ষে
- SWE-Bench Pro: ৫৬.৮% — চারটি প্রোগ্রামিং ল্যাঙ্গুয়েজ জুড়ে শীর্ষ স্কোর
- OSWorld: ৬৪.৭% — শক্তিশালী কম্পিউটার ব্যবহার (তবে Sonnet 4.6-এর ৭২.৫%-এর থেকে পিছিয়ে)
- ২৫% দ্রুত GPT-5.2 Codex-এর তুলনায়
- কাজ করার সময় ইন্টারেক্টিভ — কনটেক্সট না হারিয়েই কাজের মাঝপথে এজেন্টকে নির্দেশনা দেওয়া সম্ভব
- প্রথম সেলফ-বুটস্ট্র্যাপিং মডেল — GPT-5.3 Codex তার নিজস্ব ট্রেনিংয়ের ডিবাগিংয়ে সাহায্য করেছে
- পেইড ChatGPT প্ল্যান ব্যবহারকারীদের জন্য Codex অ্যাপ, CLI এবং IDE এক্সটেনশনে উপলব্ধ
- API প্রাইসিং এখনও প্রকাশ করা হয়নি
OpenAI যা ঘোষণা করেছে
GPT-5.3 Codex শুধুমাত্র একটি উন্নত কোডিং মডেল নয়। এটি OpenAI-এর প্রথম মডেল যা একটি পূর্ণাঙ্গ সফটওয়্যার লাইফসাইকেল এজেন্ট হিসেবে ডিজাইন করা হয়েছে — যা ডিবাগিং, ডেপ্লয়মেন্ট, মনিটরিং, PRD লেখা, কপি এডিটিং, টেস্ট চালানো এবং আরও অনেক কিছু করতে সক্ষম।
সবচেয়ে বড় ফিচার হলো: স্বায়ত্তশাসিত দীর্ঘমেয়াদী টাস্ক (autonomous long-running tasks)। GPT-5.3 Codex-কে একটি জটিল কাজ দিন, এবং এটি ঘন্টার পর ঘন্টা কাজ করবে — রিসার্চ করা, টুল ব্যবহার করা, কোড এক্সিকিউট করা এবং প্রয়োজন অনুযায়ী নিজের পরিকল্পনা পরিবর্তন করা। একজন সহকর্মীর সাথে কাজ করার মতো করেই আপনি কনটেক্সট না হারিয়ে কাজের মাঝপথে এটিকে নির্দেশনা দিতে পারেন।
OpenAI-এর সবচেয়ে চমকপ্রদ দাবি হলো: GPT-5.3 Codex হলো "প্রথম মডেল যা নিজেকে তৈরিতে গুরুত্বপূর্ণ ভূমিকা পালন করেছে।" Codex টিম এর নিজস্ব ট্রেনিং পাইপলাইন ডিবাগ করতে, ডেপ্লয়মেন্ট ম্যানেজ করতে এবং ইভালুয়েশন রেজাল্ট ডায়াগনস্টিক করতে এর প্রাথমিক ভার্সনগুলো ব্যবহার করেছিল।
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
বেঞ্চমার্ক
যেখানে GPT-5.3 Codex এগিয়ে আছে
| বেঞ্চমার্ক | যা পরীক্ষা করা হয় | GPT-5.3 Codex | সেরা প্রতিযোগী |
|---|---|---|---|
| Terminal-Bench 2.0 | এজেন্টিক টার্মিনাল কোডিং | ৭৭.৩% | Gemini 3.1 Pro: ৬৮.৫% |
| SWE-Bench Pro | মাল্টি-ল্যাঙ্গুয়েজ কোডিং | ৫৬.৮% | Gemini 3.1 Pro: ৫৪.২% |
| HumanEval | কোড জেনারেশন | ৯৩% | — |
| GPQA | সায়েন্স রিজনিং | ৮১% | Gemini 3.1 Pro: ৯৪.৩% |
পূর্ণাঙ্গ তুলনা
| বেঞ্চমার্ক | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | ৭৭.৩% | ৬৫.৪% | ৫৯.১% | ৬৮.৫% |
| SWE-Bench Pro | ৫৬.৮% | — | — | ৫৪.২% |
| OSWorld | ৬৪.৭% | ৭২.৭% | ৭২.৫% | N/A |
| SWE-bench Verified | ~৮০% | ৮০.৮% | ৭৯.৬% | ৮০.৬% |
| ARC-AGI-2 | ৫২.৯% | ৬৮.৮% | ৫৮.৩% | ৭৭.১% |
এই সংখ্যাগুলো যা বোঝায়
GPT-5.3 Codex এজেন্টিক টার্মিনাল কোডিং-এ আধিপত্য বিস্তার করছে — এমন ধরনের কাজ যেখানে একটি AI এজেন্টকে কোডবেস নেভিগেট করতে হয়, কমান্ড চালাতে হয়, আউটপুট বিশ্লেষণ করতে হয়, এরর ঠিক করতে হয় এবং পুনরায় চেষ্টা করতে হয়। ৭৭.৩% Terminal-Bench স্কোর পরবর্তী সেরা মডেলের (Gemini 3.1 Pro, ৬৮.৫%) তুলনায় প্রায় ৯ পয়েন্ট এবং Opus 4.6 (৬৫.৪%) এর তুলনায় ১২ পয়েন্ট এগিয়ে।
কিন্তু কম্পিউটার ব্যবহারের (OSWorld) ক্ষেত্রে এটি Claude-এর থেকে উল্লেখযোগ্যভাবে পিছিয়ে — Sonnet 4.6-এর ৭২.৫%-এর বিপরীতে এর স্কোর ৬৪.৭%। এবং রিজনিং (ARC-AGI-2) এর ক্ষেত্রে এটি Gemini 3.1 Pro (৭৭.১%) এবং Opus 4.6 (৬৮.৮%) এর থেকে অনেক পিছিয়ে রয়েছে।
মূল ফিচারসমূহ
১. স্বায়ত্তশাসিত বহু-ঘন্টার সেশন (Autonomous Multi-Hour Sessions)
আগের কোডিং মডেলগুলো ছোট ছোট ধাপে কাজ করত — আপনি প্রম্পট দিতেন, সেটি রেসপন্স করত, এবং আপনি আবার প্রম্পট দিতেন। GPT-5.3 Codex অনেকগুলো ধাপ জুড়ে নিজের ওয়ার্কফ্লো নিজে ম্যানেজ করে জটিল কাজে নিরবিচ্ছিন্নভাবে কাজ করতে পারে।
ওয়ার্কফ্লোর উদাহরণ: "আমাদের অথেনটিকেশন সিস্টেম JWT থেকে OAuth 2.0-তে মাইগ্রেট করো, সমস্ত এফেক্টেড এন্ডপয়েন্ট আপডেট করো, টেস্ট লেখো এবং মাইগ্রেশনটি কাজ করছে কিনা যাচাই করো।" GPT-5.3 Codex কোডবেস রিসার্চ করবে, মাইগ্রেশনের পরিকল্পনা করবে, ফাইল ধরে ধরে এক্সিকিউট করবে, টেস্ট চালাবে, ফেইলিউরগুলো ঠিক করবে এবং রিপোর্ট দেবে — যা সম্ভাব্য কয়েক ঘন্টা সময় নিতে পারে।
২. ইন্টারেক্টিভ স্টিয়ারিং (Interactive Steering)
আপনি GPT-5.3 Codex-কে কাজ করার সময় কনটেক্সট না হারিয়েই রিডাইরেক্ট করতে পারেন। আপনি যদি দেখেন এটি ভুল পথে যাচ্ছে, তবে আপনি তাকে দিক পরিবর্তন করতে বলতে পারেন। পুরো কথোপকথনটি নিরবিচ্ছিন্ন থাকে।
৩. সম্পূর্ণ সফটওয়্যার লাইফসাইকেল
OpenAI স্পষ্টভাবে GPT-5.3 Codex-কে শুধুমাত্র কোড লেখার বাইরেও অবস্থান দিয়েছে:
- Debugging — এরর লগ পড়ে, মূল কারণ খুঁজে বের করে এবং সমাধান প্রয়োগ করে
- Deploying — ডেপ্লয়মেন্ট পাইপলাইন এবং কনফিগারেশন ম্যানেজ করে
- Monitoring — রানিং সিস্টেমে কোনো সমস্যা হচ্ছে কিনা তা লক্ষ্য রাখে
- PRDs and docs — প্রোডাক্ট রিকোয়ারমেন্ট এবং ডকুমেন্টেশন লেখে
- User research — ফিডব্যাক এবং টেস্ট রেজাল্ট সিন্থেসাইজ করে
- Testing — টেস্ট স্যুট জেনারেট করে এবং রান করে
- Metrics — পারফরম্যান্স ডেটা অ্যানালাইসিস করে
৪. সেলফ-বুটস্ট্র্যাপিং (Self-Bootstrapping)
GPT-5.3 Codex ডেভেলপমেন্টের সময় নিজের প্রাথমিক ভার্সনগুলো ব্যবহার করেছে:
- ট্রেনিং পাইপলাইনের সমস্যা ডিবাগ করতে
- মডেল ডেপ্লয়মেন্ট ম্যানেজ করতে
- ইভালুয়েশন রেজাল্ট ডায়াগনস্টিক করতে
- লক্ষ লক্ষ টোকেন খরচ করে স্বায়ত্তশাসিতভাবে গেম ডেভেলপমেন্টের ওপর কাজ করতে
এই প্রথম কোনো AI মডেলকে প্রকাশ্যে নিজের সৃষ্টিতে অবদান রাখার জন্য বর্ণনা করা হয়েছে।
GPT-5.3 Codex বনাম Claude Code
| সক্ষমতা | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| টার্মিনাল কোডিং | ৭৭.৩% | Opus: ৬৫.৪%, Sonnet: ৫৯.১% |
| কম্পিউটার ব্যবহার | ৬৪.৭% | Sonnet: ৭২.৫%, Opus: ৭২.৭% |
| SWE-bench | ~৮০% | Opus: ৮০.৮%, Sonnet: ৭৯.৬% |
| বহু-ঘন্টার স্বায়ত্তশাসন | হ্যাঁ | সীমিত |
| ইন্টারেক্টিভ স্টিয়ারিং | হ্যাঁ | হ্যাঁ |
| IDE ইন্টিগ্রেশন | Codex IDE এক্সটেনশন | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| অফিস টাস্ক | সীমিত | Sonnet: ১৬৩৩ Elo |
| প্রম্পট ইনজেকশন প্রতিরোধ | স্ট্যান্ডার্ড | Opus-লেভেল |
| API প্রাইসিং | নির্ধারণ করা হবে | $৩/$১৫ (Sonnet), $১৫/$৭৫ (Opus) |
- দীর্ঘমেয়াদী স্বায়ত্তশাসিত কোডিং টাস্ক (বহু-ঘন্টার সেশন) প্রয়োজন
- জটিল টুল চেইনসহ টার্মিনাল-নির্ভর ওয়ার্কফ্লো
- আপনি ইতিমধ্যে OpenAI/ChatGPT ইকোসিস্টেমে আছেন
- সম্পূর্ণ সফটওয়্যার লাইফসাইকেল অটোমেশন প্রয়োজন
- কম্পিউটার ব্যবহার / ব্রাউজার অটোমেশন (৭২.৫% বনাম ৬৪.৭%) প্রয়োজন
- কোডিংয়ের পাশাপাশি অফিস টাস্ক প্রয়োজন
- এজেন্টের নিরাপত্তা গুরুত্বপূর্ণ (আরও ভালো প্রম্পট ইনজেকশন প্রতিরোধ ক্ষমতা)
- API খরচ সম্পর্কে নিশ্চিত হওয়া প্রয়োজন (জানা প্রাইসিং $৩/$১৫)
প্রাপ্যতা
GPT-5.3 Codex পেইড ChatGPT প্ল্যান (Plus, Pro, Team, Enterprise) ব্যবহারকারীদের জন্য উপলব্ধ:
- Codex app (web) — পূর্ণ স্বায়ত্তশাসিত এজেন্ট ইন্টারফেস
- Codex CLI — টার্মিনাল-ভিত্তিক কোডিং এজেন্ট
- IDE extension — আপনার এডিটরে ইন্টিগ্রেটেড
- API — কয়েক সপ্তাহের মধ্যে আসছে (প্রাইসিং নির্ধারিত হবে)
ডেভেলপারদের জন্য এর গুরুত্ব
AI কোডিং এজেন্ট রেস এখন বাস্তব
৫ ফেব্রুয়ারি, ২০২৬-এ OpenAI এবং Anthropic উভয়ই একই দিনে তাদের প্রধান মডেলগুলো রিলিজ করেছে — GPT-5.3 Codex এবং Claude Opus 4.6। বার্তাটি স্পষ্ট: স্বায়ত্তশাসিত কোডিং এজেন্ট এখন প্রতিযোগিতার প্রধান ক্ষেত্র।
ভিন্ন শক্তি, ভিন্ন ওয়ার্কফ্লো
GPT-5.3 Codex দীর্ঘ সেশনে স্বায়ত্তশাসিত, টার্মিনাল-ভিত্তিক কোডিংয়ে দক্ষ। Claude কম্পিউটার ব্যবহার, অফিস ইন্টিগ্রেশন এবং নিরাপত্তার ক্ষেত্রে পারদর্শী। Gemini 3.1 Pro রিজনিং এবং মাল্টিমোডাল ক্ষেত্রে নেতৃত্ব দিচ্ছে।
বেশিরভাগ ডেভেলপারের জন্য পছন্দটি আপনার ওয়ার্কফ্লোর ওপর নির্ভর করে:
- ভারী CLI/টার্মিনাল কাজ → GPT-5.3 Codex
- ব্রাউজার অটোমেশন + মিক্সড টাস্ক → Claude Code
- সায়েন্টিফিক/রিজনিং-নির্ভর কাজ → Gemini 3.1 Pro
মডেলটি কেবল শুরু মাত্র
তিনটি ল্যাবের প্রবণতা একটাই: শুধুমাত্র মডেল যথেষ্ট নয়। আপনার এর চারপাশে ডেপ্লয়মেন্ট, মনিটরিং, অ্যানালিটিক্স এবং গ্রোথ টুলস প্রয়োজন। AI কোডিং এজেন্ট কোড লিখে দেয়, কিন্তু একটি প্রোডাক্ট শিপ করার জন্য পুরো স্ট্যাকের প্রয়োজন।
আপনি যা তৈরি করেন তা শিপ করুন। Y Build কোডিংয়ের পরবর্তী সবকিছু সামলায়: ওয়ান-ক্লিক ডেপ্লয়, প্রোডাক্ট ভিডিওর জন্য Demo Cut, AI SEO এবং অ্যানালিটিক্স। যেকোনো AI কোডিং টুলের সাথে কাজ করে। ফ্রি শুরু করুন.
উৎসসমূহ:
- OpenAI: Introducing GPT-5.3-Codex
- OpenAI: GPT-5.3-Codex System Card
- Fortune: OpenAI GPT-5.3 Codex raises cybersecurity risks
- MarkTechPost: GPT-5.3-Codex agentic coding model
- DataCamp: GPT-5.3 Codex from coding to general work agent
- OfficeChai: Gemini 3.1 Pro Benchmarks (GPT-5.3 comparison)
- LLM Stats: GPT-5.3 Codex pricing and benchmarks
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.