GPT-5.3 Codex: OpenAI-এর স্বায়ত্তশাসিত কোডিং এজেন্ট

TL;DR

OpenAI ৫ ফেব্রুয়ারি, ২০২৬-এ GPT-5.3 Codex রিলিজ করেছে — ঠিক যে দিন Anthropic তাদের Opus 4.6 লঞ্চ করেছিল। মূল পরিসংখ্যান:

Terminal-Bench 2.0: ৭৭.৩% — এজেন্টিক টার্মিনাল কোডিংয়ে সব মডেলের মধ্যে শীর্ষে
SWE-Bench Pro: ৫৬.৮% — চারটি প্রোগ্রামিং ল্যাঙ্গুয়েজ জুড়ে শীর্ষ স্কোর
OSWorld: ৬৪.৭% — শক্তিশালী কম্পিউটার ব্যবহার (তবে Sonnet 4.6-এর ৭২.৫%-এর থেকে পিছিয়ে)
২৫% দ্রুত GPT-5.2 Codex-এর তুলনায়
কাজ করার সময় ইন্টারেক্টিভ — কনটেক্সট না হারিয়েই কাজের মাঝপথে এজেন্টকে নির্দেশনা দেওয়া সম্ভব
প্রথম সেলফ-বুটস্ট্র্যাপিং মডেল — GPT-5.3 Codex তার নিজস্ব ট্রেনিংয়ের ডিবাগিংয়ে সাহায্য করেছে
পেইড ChatGPT প্ল্যান ব্যবহারকারীদের জন্য Codex অ্যাপ, CLI এবং IDE এক্সটেনশনে উপলব্ধ
API প্রাইসিং এখনও প্রকাশ করা হয়নি

OpenAI যা ঘোষণা করেছে

GPT-5.3 Codex শুধুমাত্র একটি উন্নত কোডিং মডেল নয়। এটি OpenAI-এর প্রথম মডেল যা একটি পূর্ণাঙ্গ সফটওয়্যার লাইফসাইকেল এজেন্ট হিসেবে ডিজাইন করা হয়েছে — যা ডিবাগিং, ডেপ্লয়মেন্ট, মনিটরিং, PRD লেখা, কপি এডিটিং, টেস্ট চালানো এবং আরও অনেক কিছু করতে সক্ষম।

সবচেয়ে বড় ফিচার হলো: স্বায়ত্তশাসিত দীর্ঘমেয়াদী টাস্ক (autonomous long-running tasks)। GPT-5.3 Codex-কে একটি জটিল কাজ দিন, এবং এটি ঘন্টার পর ঘন্টা কাজ করবে — রিসার্চ করা, টুল ব্যবহার করা, কোড এক্সিকিউট করা এবং প্রয়োজন অনুযায়ী নিজের পরিকল্পনা পরিবর্তন করা। একজন সহকর্মীর সাথে কাজ করার মতো করেই আপনি কনটেক্সট না হারিয়ে কাজের মাঝপথে এটিকে নির্দেশনা দিতে পারেন।

OpenAI-এর সবচেয়ে চমকপ্রদ দাবি হলো: GPT-5.3 Codex হলো "প্রথম মডেল যা নিজেকে তৈরিতে গুরুত্বপূর্ণ ভূমিকা পালন করেছে।" Codex টিম এর নিজস্ব ট্রেনিং পাইপলাইন ডিবাগ করতে, ডেপ্লয়মেন্ট ম্যানেজ করতে এবং ইভালুয়েশন রেজাল্ট ডায়াগনস্টিক করতে এর প্রাথমিক ভার্সনগুলো ব্যবহার করেছিল।

বেঞ্চমার্ক

যেখানে GPT-5.3 Codex এগিয়ে আছে

বেঞ্চমার্ক	যা পরীক্ষা করা হয়	GPT-5.3 Codex	সেরা প্রতিযোগী
Terminal-Bench 2.0	এজেন্টিক টার্মিনাল কোডিং	৭৭.৩%	Gemini 3.1 Pro: ৬৮.৫%
SWE-Bench Pro	মাল্টি-ল্যাঙ্গুয়েজ কোডিং	৫৬.৮%	Gemini 3.1 Pro: ৫৪.২%
HumanEval	কোড জেনারেশন	৯৩%	—
GPQA	সায়েন্স রিজনিং	৮১%	Gemini 3.1 Pro: ৯৪.৩%

পূর্ণাঙ্গ তুলনা

বেঞ্চমার্ক	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	৭৭.৩%	৬৫.৪%	৫৯.১%	৬৮.৫%
SWE-Bench Pro	৫৬.৮%	—	—	৫৪.২%
OSWorld	৬৪.৭%	৭২.৭%	৭২.৫%	N/A
SWE-bench Verified	~৮০%	৮০.৮%	৭৯.৬%	৮০.৬%
ARC-AGI-2	৫২.৯%	৬৮.৮%	৫৮.৩%	৭৭.১%

এই সংখ্যাগুলো যা বোঝায়

GPT-5.3 Codex এজেন্টিক টার্মিনাল কোডিং-এ আধিপত্য বিস্তার করছে — এমন ধরনের কাজ যেখানে একটি AI এজেন্টকে কোডবেস নেভিগেট করতে হয়, কমান্ড চালাতে হয়, আউটপুট বিশ্লেষণ করতে হয়, এরর ঠিক করতে হয় এবং পুনরায় চেষ্টা করতে হয়। ৭৭.৩% Terminal-Bench স্কোর পরবর্তী সেরা মডেলের (Gemini 3.1 Pro, ৬৮.৫%) তুলনায় প্রায় ৯ পয়েন্ট এবং Opus 4.6 (৬৫.৪%) এর তুলনায় ১২ পয়েন্ট এগিয়ে।

কিন্তু কম্পিউটার ব্যবহারের (OSWorld) ক্ষেত্রে এটি Claude-এর থেকে উল্লেখযোগ্যভাবে পিছিয়ে — Sonnet 4.6-এর ৭২.৫%-এর বিপরীতে এর স্কোর ৬৪.৭%। এবং রিজনিং (ARC-AGI-2) এর ক্ষেত্রে এটি Gemini 3.1 Pro (৭৭.১%) এবং Opus 4.6 (৬৮.৮%) এর থেকে অনেক পিছিয়ে রয়েছে।

মূল ফিচারসমূহ

১. স্বায়ত্তশাসিত বহু-ঘন্টার সেশন (Autonomous Multi-Hour Sessions)

আগের কোডিং মডেলগুলো ছোট ছোট ধাপে কাজ করত — আপনি প্রম্পট দিতেন, সেটি রেসপন্স করত, এবং আপনি আবার প্রম্পট দিতেন। GPT-5.3 Codex অনেকগুলো ধাপ জুড়ে নিজের ওয়ার্কফ্লো নিজে ম্যানেজ করে জটিল কাজে নিরবিচ্ছিন্নভাবে কাজ করতে পারে।

ওয়ার্কফ্লোর উদাহরণ: "আমাদের অথেনটিকেশন সিস্টেম JWT থেকে OAuth 2.0-তে মাইগ্রেট করো, সমস্ত এফেক্টেড এন্ডপয়েন্ট আপডেট করো, টেস্ট লেখো এবং মাইগ্রেশনটি কাজ করছে কিনা যাচাই করো।" GPT-5.3 Codex কোডবেস রিসার্চ করবে, মাইগ্রেশনের পরিকল্পনা করবে, ফাইল ধরে ধরে এক্সিকিউট করবে, টেস্ট চালাবে, ফেইলিউরগুলো ঠিক করবে এবং রিপোর্ট দেবে — যা সম্ভাব্য কয়েক ঘন্টা সময় নিতে পারে।

২. ইন্টারেক্টিভ স্টিয়ারিং (Interactive Steering)

আপনি GPT-5.3 Codex-কে কাজ করার সময় কনটেক্সট না হারিয়েই রিডাইরেক্ট করতে পারেন। আপনি যদি দেখেন এটি ভুল পথে যাচ্ছে, তবে আপনি তাকে দিক পরিবর্তন করতে বলতে পারেন। পুরো কথোপকথনটি নিরবিচ্ছিন্ন থাকে।

৩. সম্পূর্ণ সফটওয়্যার লাইফসাইকেল

OpenAI স্পষ্টভাবে GPT-5.3 Codex-কে শুধুমাত্র কোড লেখার বাইরেও অবস্থান দিয়েছে:

Debugging — এরর লগ পড়ে, মূল কারণ খুঁজে বের করে এবং সমাধান প্রয়োগ করে
Deploying — ডেপ্লয়মেন্ট পাইপলাইন এবং কনফিগারেশন ম্যানেজ করে
Monitoring — রানিং সিস্টেমে কোনো সমস্যা হচ্ছে কিনা তা লক্ষ্য রাখে
PRDs and docs — প্রোডাক্ট রিকোয়ারমেন্ট এবং ডকুমেন্টেশন লেখে
User research — ফিডব্যাক এবং টেস্ট রেজাল্ট সিন্থেসাইজ করে
Testing — টেস্ট স্যুট জেনারেট করে এবং রান করে
Metrics — পারফরম্যান্স ডেটা অ্যানালাইসিস করে

৪. সেলফ-বুটস্ট্র্যাপিং (Self-Bootstrapping)

GPT-5.3 Codex ডেভেলপমেন্টের সময় নিজের প্রাথমিক ভার্সনগুলো ব্যবহার করেছে:

ট্রেনিং পাইপলাইনের সমস্যা ডিবাগ করতে

মডেল ডেপ্লয়মেন্ট ম্যানেজ করতে

ইভালুয়েশন রেজাল্ট ডায়াগনস্টিক করতে

লক্ষ লক্ষ টোকেন খরচ করে স্বায়ত্তশাসিতভাবে গেম ডেভেলপমেন্টের ওপর কাজ করতে

এই প্রথম কোনো AI মডেলকে প্রকাশ্যে নিজের সৃষ্টিতে অবদান রাখার জন্য বর্ণনা করা হয়েছে।

GPT-5.3 Codex বনাম Claude Code

সক্ষমতা	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
টার্মিনাল কোডিং	৭৭.৩%	Opus: ৬৫.৪%, Sonnet: ৫৯.১%
কম্পিউটার ব্যবহার	৬৪.৭%	Sonnet: ৭২.৫%, Opus: ৭২.৭%
SWE-bench	~৮০%	Opus: ৮০.৮%, Sonnet: ৭৯.৬%
বহু-ঘন্টার স্বায়ত্তশাসন	হ্যাঁ	সীমিত
ইন্টারেক্টিভ স্টিয়ারিং	হ্যাঁ	হ্যাঁ
IDE ইন্টিগ্রেশন	Codex IDE এক্সটেনশন	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
অফিস টাস্ক	সীমিত	Sonnet: ১৬৩৩ Elo
প্রম্পট ইনজেকশন প্রতিরোধ	স্ট্যান্ডার্ড	Opus-লেভেল
API প্রাইসিং	নির্ধারণ করা হবে	$৩/$১৫ (Sonnet), $১৫/$৭৫ (Opus)

GPT-5.3 Codex বেছে নিন যখন:

দীর্ঘমেয়াদী স্বায়ত্তশাসিত কোডিং টাস্ক (বহু-ঘন্টার সেশন) প্রয়োজন
জটিল টুল চেইনসহ টার্মিনাল-নির্ভর ওয়ার্কফ্লো
আপনি ইতিমধ্যে OpenAI/ChatGPT ইকোসিস্টেমে আছেন
সম্পূর্ণ সফটওয়্যার লাইফসাইকেল অটোমেশন প্রয়োজন

Claude Code বেছে নিন যখন:

কম্পিউটার ব্যবহার / ব্রাউজার অটোমেশন (৭২.৫% বনাম ৬৪.৭%) প্রয়োজন
কোডিংয়ের পাশাপাশি অফিস টাস্ক প্রয়োজন
এজেন্টের নিরাপত্তা গুরুত্বপূর্ণ (আরও ভালো প্রম্পট ইনজেকশন প্রতিরোধ ক্ষমতা)
API খরচ সম্পর্কে নিশ্চিত হওয়া প্রয়োজন (জানা প্রাইসিং $৩/$১৫)

প্রাপ্যতা

GPT-5.3 Codex পেইড ChatGPT প্ল্যান (Plus, Pro, Team, Enterprise) ব্যবহারকারীদের জন্য উপলব্ধ:

Codex app (web) — পূর্ণ স্বায়ত্তশাসিত এজেন্ট ইন্টারফেস
Codex CLI — টার্মিনাল-ভিত্তিক কোডিং এজেন্ট
IDE extension — আপনার এডিটরে ইন্টিগ্রেটেড
API — কয়েক সপ্তাহের মধ্যে আসছে (প্রাইসিং নির্ধারিত হবে)

বর্তমানে ফ্রি টিয়ারে কোনো অ্যাক্সেস নেই।

ডেভেলপারদের জন্য এর গুরুত্ব

AI কোডিং এজেন্ট রেস এখন বাস্তব

৫ ফেব্রুয়ারি, ২০২৬-এ OpenAI এবং Anthropic উভয়ই একই দিনে তাদের প্রধান মডেলগুলো রিলিজ করেছে — GPT-5.3 Codex এবং Claude Opus 4.6। বার্তাটি স্পষ্ট: স্বায়ত্তশাসিত কোডিং এজেন্ট এখন প্রতিযোগিতার প্রধান ক্ষেত্র।

ভিন্ন শক্তি, ভিন্ন ওয়ার্কফ্লো

GPT-5.3 Codex দীর্ঘ সেশনে স্বায়ত্তশাসিত, টার্মিনাল-ভিত্তিক কোডিংয়ে দক্ষ। Claude কম্পিউটার ব্যবহার, অফিস ইন্টিগ্রেশন এবং নিরাপত্তার ক্ষেত্রে পারদর্শী। Gemini 3.1 Pro রিজনিং এবং মাল্টিমোডাল ক্ষেত্রে নেতৃত্ব দিচ্ছে।

বেশিরভাগ ডেভেলপারের জন্য পছন্দটি আপনার ওয়ার্কফ্লোর ওপর নির্ভর করে:

ভারী CLI/টার্মিনাল কাজ → GPT-5.3 Codex

ব্রাউজার অটোমেশন + মিক্সড টাস্ক → Claude Code

সায়েন্টিফিক/রিজনিং-নির্ভর কাজ → Gemini 3.1 Pro

মডেলটি কেবল শুরু মাত্র

তিনটি ল্যাবের প্রবণতা একটাই: শুধুমাত্র মডেল যথেষ্ট নয়। আপনার এর চারপাশে ডেপ্লয়মেন্ট, মনিটরিং, অ্যানালিটিক্স এবং গ্রোথ টুলস প্রয়োজন। AI কোডিং এজেন্ট কোড লিখে দেয়, কিন্তু একটি প্রোডাক্ট শিপ করার জন্য পুরো স্ট্যাকের প্রয়োজন।

আপনি যা তৈরি করেন তা শিপ করুন। Y Build কোডিংয়ের পরবর্তী সবকিছু সামলায়: ওয়ান-ক্লিক ডেপ্লয়, প্রোডাক্ট ভিডিওর জন্য Demo Cut, AI SEO এবং অ্যানালিটিক্স। যেকোনো AI কোডিং টুলের সাথে কাজ করে। ফ্রি শুরু করুন.

উৎসসমূহ: