Gemini 3.1 Pro: Google-এর Reasoning-এর এক বিশাল উল্লম্ফন

TL;DR

Google ১৯ ফেব্রুয়ারি, ২০২৬-এ Gemini 3.1 Pro (প্রিভিউ) প্রকাশ করেছে। মূল পরিসংখ্যানগুলো হলো:

ARC-AGI-2: ৭৭.১% — Gemini 3 Pro (৩১.১%)-এর চেয়ে দ্বিগুণেরও বেশি, Opus 4.6 (৬৮.৮%) এবং GPT-5.2 (৫২.৯%)-কে ছাড়িয়ে গেছে
GPQA Diamond: ৯৪.৩% — স্নাতক পর্যায়ের বিজ্ঞানে (graduate-level science) সমস্ত মডেলের মধ্যে এগিয়ে
SWE-bench: ৮০.৬% — কোডিংয়ের ক্ষেত্রে Opus 4.6 (৮০.৮%)-এর সমতুল্য
দাম: প্রতি ১ মিলিয়ন টোকেনে $২/$১২ — সবচেয়ে সাশ্রয়ী ফ্রন্টিয়ার মডেল (frontier model)
১ মিলিয়ন টোকেন কনটেক্সট — Gemini 3 Pro-এর মতোই অপরিবর্তিত
Google দ্বারা মূল্যায়িত ১৬টি বেঞ্চমার্কের মধ্যে ১৩টিতেই সেরা
এখন প্রিভিউতে উপলব্ধ: AI Studio, Vertex AI, Gemini CLI, এবং Gemini অ্যাপে

Google যা ঘোষণা করেছে

১৯ ফেব্রুয়ারি, ২০২৬-এ Google তাদের Gemini 3.1 Pro প্রকাশ করেছে — যা তাদের মডেল ভার্সনিং-এ প্রথম \".১\" ইনক্রিমেন্ট। এটি Gemini 3 Pro (নভেম্বর ২০২৫)-এর ওপর ভিত্তি করে তৈরি এবং এতে Gemini 3 Deep Think সিরিজের প্রযুক্তিগুলো যুক্ত করা হয়েছে যাতে মডেলটি আরও সহজলভ্য এবং দ্রুত হয়।

Google-এর ব্লগে এটিকে এমন কাজের জন্য ডিজাইন করা হয়েছে বলে বর্ণনা করা হয়েছে যেখানে \"একটি সাধারণ উত্তর যথেষ্ট নয়\" — যেমন জটিল মাল্টি-স্টেপ Reasoning, ডেটা সিন্থেসিস এবং এজেন্টিক ওয়ার্কফ্লো (agentic workflows)।

সবচেয়ে উল্লেখযোগ্য পরিসংখ্যান হলো: ARC-AGI-2-এ ৭৭.১%, যা নতুন ধরণের বিমূর্ত যৌক্তিক চিন্তাভাবনার (abstract reasoning) একটি বেঞ্চমার্ক। এটি Gemini 3 Pro-এর ৩১.১%-এর চেয়ে দ্বিগুণেরও বেশি এবং Opus 4.6 (৬৮.৮%) ও GPT-5.2 (৫২.৯%) উভয়ের থেকেই উল্লেখযোগ্যভাবে এগিয়ে। VentureBeat এটিকে বলছে \"অ্যাডজাস্টেবল রিজনিং অন ডিমান্ড সহ একটি Deep Think Mini।\"

সম্পূর্ণ বেঞ্চমার্ক বিশ্লেষণ

যেখানে Gemini 3.1 Pro এগিয়ে (১৬টি বেঞ্চমার্কের মধ্যে ১৩টি)

বেঞ্চমার্ক	যা পরীক্ষা করে	Gemini 3.1 Pro	সেরা প্রতিযোগী
ARC-AGI-2	নতুন যৌক্তিক চিন্তাভাবনা	৭৭.১%	Opus 4.6: ৬৮.৮%
GPQA Diamond	স্নাতক পর্যায়ের বিজ্ঞান	৯৪.৩%	GPT-5.2: ৯২.৪%
BrowseComp	এজেন্টিক ওয়েব সার্চ	৮৫.৯%	Opus 4.6: ৮৪.০%
Terminal-Bench 2.0	টার্মিনাল কোডিং	৬৮.৫%	Opus 4.6: ৬৫.৪%
APEX-Agents	এজেন্টের সক্ষমতা	৩৩.৫%	Opus 4.6: ২৯.৮%
MCP Atlas	টুল ব্যবহার (Tool use)	৬৯.২%	—
t2-bench Telecom	নির্দিষ্ট ডোমেইন	৯৯.৩%	—
SWE-bench Verified	কোডিং	৮০.৬%	Opus 4.6: ৮০.৮%
MRCR v2	লং-কনটেক্সট	৮৪.৯%	Sonnet 4.6: ৮৪.৯% (টাই)

যেখানে প্রতিযোগীরা এখনও জয়ী

বেঞ্চমার্ক	যা পরীক্ষা করে	বিজয়ী	Gemini 3.1 Pro
GDPval-AA (Elo)	অফিসের কাজ	Sonnet 4.6: ১৬৩৩	প্রকাশ করা হয়নি
Terminal-Bench 2.0	ভারী টার্মিনাল কোডিং	GPT-5.3-Codex: ৭৭.৩%	৬৮.৫%
SWE-Bench Pro	অ্যাডভান্সড কোডিং	GPT-5.3-Codex: ৫৬.৮%	প্রকাশ করা হয়নি
OSWorld	কম্পিউটার ব্যবহার	Sonnet 4.6: ৭২.৫%	বেঞ্চমার্ক করা হয়নি

প্রেক্ষাপটে Reasoning-এর উল্লম্ফন

ARC-AGI-2 একটি মডেলের এমন সমস্যা সমাধানের ক্ষমতা পরিমাপ করে যা সে আগে কখনও দেখেনি — এটি মূলত পিওর অ্যাবস্ট্রাক্ট রিজনিং, যা ট্রেনিং ডেটা থেকে প্যাটার্ন ম্যাচিং নয়। Gemini কত দ্রুত উন্নত হয়েছে তা এখানে দেখুন:

মডেল	ARC-AGI-2	তারিখ
Gemini 3 Pro	৩১.১%	নভেম্বর ২০২৫
GPT-5.2	৫২.৯%	ডিসেম্বর ২০২৫
Claude Opus 4.6	৬৮.৮%	ফেব্রুয়ারি ২০২৬
Gemini 3.1 Pro	৭৭.১%	ফেব্রুয়ারি ২০২৬

Gemini 3.1 Pro মাত্র একটি ভার্সনেই ৩১.১% থেকে ৭৭.১%-এ পৌঁছেছে — যা ১৪৮% উন্নতি। এটি সম্ভব হয়েছে বেস মডেলের মধ্যে Deep Think-এর বর্ধিত রিজনিং কৌশলগুলো যুক্ত করার মাধ্যমে।

Gemini 3 Pro-এর তুলনায় কী পরিবর্তন এসেছে

১. Deep Think ইন্টিগ্রেশন

Gemini 3 Deep Think ছিল একটি আলাদা এবং ধীরগতির মডেল যা দীর্ঘতর রিজনিংয়ের জন্য অপ্টিমাইজ করা হয়েছিল। Gemini 3.1 Pro সেই কৌশলগুলোকে স্ট্যান্ডার্ড মডেলের মধ্যে নিয়ে এসেছে, যেখানে রিজনিংয়ের গভীরতা (reasoning depth) সমন্বয় করা সম্ভব। এর ফলে অধিকাংশ কাজের ক্ষেত্রে Deep Think-এর মতো ল্যাটেন্সি বা ধীরগতি ছাড়াই আপনি একই স্তরের রিজনিং পাবেন।

২. নাটকীয়ভাবে উন্নত Reasoning

পরিসংখ্যানগুলো নিজেই কথা বলে:

বেঞ্চমার্ক	Gemini 3 Pro	Gemini 3.1 Pro	উন্নতি
ARC-AGI-2	৩১.১%	৭৭.১%	+১৪৮%
GPQA Diamond	~৮৮%	৯৪.৩%	+৭%
APEX-Agents	১৮.৪%	৩৩.৫%	+৮২%

৩. উন্নত এজেন্টিক পারফরম্যান্স

APEX-Agents (৩৩.৫%) এবং MCP Atlas (৬৯.২%) স্কোরগুলো দেখায় যে Gemini 3.1 Pro একটি স্বায়ত্তশাসিত এজেন্ট (autonomous agent) হিসেবে অনেক বেশি সক্ষম — টুল ব্যবহার, মাল্টি-স্টেপ প্ল্যানিং এবং সেলফ-কারেকশন প্রতিটি ক্ষেত্রেই এটি উন্নত।

৪. বজায় রাখা মাল্টিমোডাল শক্তি

Gemini 3.1 Pro-তে Gemini-এর মূল সুবিধাটি বজায় রয়েছে: একটি একক কনটেক্সটের মধ্যে টেক্সট, ইমেজ, অডিও এবং ভিডিওর নেটিভ মাল্টিমোডাল প্রসেসিং। এই দামে অন্য কোনো ফ্রন্টিয়ার মডেল এই ব্যাপ্তি প্রদান করে না।

মূল্য নির্ধারণ

এটি Gemini 3 Pro-এর সমান দামেই পাওয়া যাচ্ছে — মূলত একটি ফ্রি আপগ্রেড:

কনটেক্সট সাইজ	ইনপুট (প্রতি ১ মিলিয়ন টোকেনে)	আউটপুট (প্রতি ১ মিলিয়ন টোকেনে)
≤২০০K টোকেন	$২.০০	$১২.০০
>২০০K টোকেন	$৪.০০	$১৮.০০

প্রতিযোগীদের সাথে তুলনা

মডেল	ইনপুট	আউটপুট	আপেক্ষিক খরচ
Gemini 3.1 Pro	$২.০০	$১২.০০	১x
Claude Sonnet 4.6	$৩.০০	$১৫.০০	১.৫x
GPT-5.2	$৫.০০	$১৫.০০	২.০x (ইনপুট)
Claude Opus 4.6	$১৫.০০	$৭৫.০০	৭.৫x

Gemini 3.1 Pro বর্তমানে সবচেয়ে সস্তা ফ্রন্টিয়ার মডেল — যা ইনপুটের ক্ষেত্রে Sonnet 4.6-এর চেয়ে ৩৩% এবং আউটপুটের ক্ষেত্রে ২০% সস্তা।

সেশন প্রতি খরচ (১০০K ইনপুট + ২০K আউটপুট)

মডেল	খরচ
Gemini 3.1 Pro	$০.৪৪
Claude Sonnet 4.6	$০.৬০
GPT-5.2	$০.৮০
Claude Opus 4.6	$৩.০০

অতিরিক্ত খরচ অপ্টিমাইজেশন:

Batch mode: ৫০% ডিসকাউন্ট (সেশন প্রতি $০.২২)

Context caching: ক্যাশ করা ইনপুট রিড করতে মূল দামের মাত্র ১০% খরচ হয়

প্রাপ্যতা

কোথায় এটি ব্যবহার করবেন

প্ল্যাটফর্ম	স্ট্যাটাস	মডেল আইডি (Model ID)
Gemini App (ভোক্তাদের জন্য)	পর্যায়ক্রমে চালু হচ্ছে	অটো-সিলেক্টেড
Google AI Studio	এখন উপলব্ধ	`gemini-3.1-pro-preview`
Vertex AI	এখন উপলব্ধ	`gemini-3.1-pro-preview`
Gemini API	এখন উপলব্ধ	`gemini-3.1-pro-preview`
Gemini CLI	এখন উপলব্ধ	`gemini-3.1-pro-preview`
Antigravity	এখন উপলব্ধ	অটো-সিলেক্টেড
Android Studio	এখন উপলব্ধ	অটো-সিলেক্টেড
GitHub Copilot	পাবলিক প্রিভিউ	নির্বাচনযোগ্য (Selectable)
NotebookLM	Pro/Ultra সাবস্ক্রাইবারদের জন্য	অটো-সিলেক্টেড

API কুইক স্টার্ট

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

কাস্টম টুলস এন্ডপয়েন্ট (Custom Tools Endpoint)

উন্নত টুল পারফরম্যান্সের জন্য Google একটি বিশেষ এন্ডপয়েন্টও চালু করেছে:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

যখন আপনি এমন এজেন্ট তৈরি করবেন যা ফাংশন কলিং এবং টুল ব্যবহারের ওপর অনেক বেশি নির্ভরশীল, তখন এই এন্ডপয়েন্টটি ব্যবহার করুন।

এর অর্থ কী

রিজনিং-এর প্রতিযোগিতা আরও তীব্র হচ্ছে

মাত্র ১৩ দিনের মধ্যে তিনটি ফ্রন্টিয়ার মডেল মুক্তি পেয়েছে:

৬ ফেব্রুয়ারি: Claude Opus 4.6 (Anthropic)

১৭ ফেব্রুয়ারি: Claude Sonnet 4.6 (Anthropic)

১৯ ফেব্রুয়ারি: Gemini 3.1 Pro (Google)

প্রতিটি মডেল ভিন্ন ভিন্ন ক্ষেত্রে নিজেদের সেরা বলে দাবি করছে। মডেল ল্যান্ডস্কেপ এখন বিভক্ত হয়ে যাচ্ছে — এখন আর কোনো একটি মডেল সব কিছুতে আধিপত্য করছে না।

বাজেটের মধ্যে সেরা রিজনিং

Gemini 3.1 Pro-এর ৭৭.১% ARC-AGI-2 স্কোর বর্তমানে উপলব্ধ সর্বোচ্চ রিজনিং স্কোর, এবং তাও সর্বনিম্ন মূল্যে ($২/$১২)। নতুন সমস্যা সমাধান, অ্যাবস্ট্রাক্ট রিজনিং বা বৈজ্ঞানিক বিশ্লেষণের প্রয়োজন এমন কাজের জন্য এটি এখন স্পষ্ট পছন্দ।

কোডিংয়ে সমতা

SWE-bench-এ ৮০.৬% স্কোর সহ (Opus 4.6-এর ৮০.৮% এবং Sonnet 4.6-এর ৭৯.৬%-এর বিপরীতে), Gemini 3.1 Pro প্রথমবারের মতো কোডিং প্রতিযোগিতায় শক্ত অবস্থানে এসেছে। পূর্ববর্তী Gemini মডেলগুলো এই বেঞ্চমার্কে Claude-এর চেয়ে উল্লেখযোগ্যভাবে পিছিয়ে ছিল।

যে অংশটি অনুপস্থিত: কম্পিউটার ব্যবহার

Gemini 3.1 Pro-এর OSWorld (কম্পিউটার ব্যবহার) বেঞ্চমার্ক নেই। Claude Sonnet 4.6 এই সক্ষমতায় ৭২.৫% স্কোর নিয়ে এগিয়ে আছে। যদি আপনার কাজের ক্ষেত্রে ব্রাউজার অটোমেশন, ফর্ম ফিলিং বা ডেস্কটপ কন্ট্রোল জড়িত থাকে, তবে Claude এখনও একমাত্র কার্যকর বিকল্প।

যারা প্রোডাক্ট তৈরি করছেন সেই ডেভেলপারদের জন্য

বাস্তবিক প্রভাবগুলো হলো:

সবচেয়ে সাশ্রয়ী রিজনিং: সেশন প্রতি $০.৪৪ বনাম $০.৬০ (Sonnet) বনাম $০.৮০ (GPT-5.2)

বৈজ্ঞানিক/বিশ্লেষণাত্মক কাজের জন্য সেরা: ৯৪.৩% GPQA Diamond হলো বর্তমানে সর্বোচ্চ স্কোর

কোডিংয়ে প্রতিযোগিতামূলক: ৮০.৬% SWE-bench স্কোর Claude-এর সাথে ব্যবধান কমিয়ে দিয়েছে

মাল্টিমোডাল সুবিধা: নেটিভ ভিডিও/অডিও প্রসেসিং যা Claude এবং GPT-তে এই স্তরে নেই

প্রিভিউ স্ট্যাটাস: এটি এখনও GA (General Availability) নয় — চূড়ান্ত ভার্সনের আগে আরও উন্নতির আশা করা যায়

AI দিয়ে কিছু তৈরি করছেন? Y Build ডেভেলপমেন্টের জন্য আপনার পছন্দসই AI টুলগুলোর সাথে ইন্টিগ্রেট করে, তারপর ডিপ্লয়মেন্ট, Demo Cut প্রোডাক্ট ভিডিও, AI SEO এবং অ্যানালিটিক্স — কোড থেকে গ্রোথ পর্যন্ত ফুল স্ট্যাক সামলায়। বিনামূল্যে শুরু করুন.

উৎসসমূহ:

TL;DR

ARC-AGI-2: ৭৭.১% — Gemini 3 Pro (৩১.১%)-এর চেয়ে দ্বিগুণেরও বেশি, Opus 4.6 (৬৮.৮%) এবং GPT-5.2 (৫২.৯%)-কে ছাড়িয়ে গেছে
GPQA Diamond: ৯৪.৩% — স্নাতক পর্যায়ের বিজ্ঞানে (graduate-level science) সমস্ত মডেলের মধ্যে এগিয়ে
SWE-bench: ৮০.৬% — কোডিংয়ের ক্ষেত্রে Opus 4.6 (৮০.৮%)-এর সমতুল্য
দাম: প্রতি ১ মিলিয়ন টোকেনে $২/$১২ — সবচেয়ে সাশ্রয়ী ফ্রন্টিয়ার মডেল (frontier model)
১ মিলিয়ন টোকেন কনটেক্সট — Gemini 3 Pro-এর মতোই অপরিবর্তিত
Google দ্বারা মূল্যায়িত ১৬টি বেঞ্চমার্কের মধ্যে ১৩টিতেই সেরা
এখন প্রিভিউতে উপলব্ধ: AI Studio, Vertex AI, Gemini CLI, এবং Gemini অ্যাপে

Google যা ঘোষণা করেছে

সম্পূর্ণ বেঞ্চমার্ক বিশ্লেষণ

যেখানে Gemini 3.1 Pro এগিয়ে (১৬টি বেঞ্চমার্কের মধ্যে ১৩টি)

বেঞ্চমার্ক	যা পরীক্ষা করে	Gemini 3.1 Pro	সেরা প্রতিযোগী
ARC-AGI-2	নতুন যৌক্তিক চিন্তাভাবনা	৭৭.১%	Opus 4.6: ৬৮.৮%
GPQA Diamond	স্নাতক পর্যায়ের বিজ্ঞান	৯৪.৩%	GPT-5.2: ৯২.৪%
BrowseComp	এজেন্টিক ওয়েব সার্চ	৮৫.৯%	Opus 4.6: ৮৪.০%
Terminal-Bench 2.0	টার্মিনাল কোডিং	৬৮.৫%	Opus 4.6: ৬৫.৪%
APEX-Agents	এজেন্টের সক্ষমতা	৩৩.৫%	Opus 4.6: ২৯.৮%
MCP Atlas	টুল ব্যবহার (Tool use)	৬৯.২%	—
t2-bench Telecom	নির্দিষ্ট ডোমেইন	৯৯.৩%	—
SWE-bench Verified	কোডিং	৮০.৬%	Opus 4.6: ৮০.৮%
MRCR v2	লং-কনটেক্সট	৮৪.৯%	Sonnet 4.6: ৮৪.৯% (টাই)

যেখানে প্রতিযোগীরা এখনও জয়ী

বেঞ্চমার্ক	যা পরীক্ষা করে	বিজয়ী	Gemini 3.1 Pro
GDPval-AA (Elo)	অফিসের কাজ	Sonnet 4.6: ১৬৩৩	প্রকাশ করা হয়নি
Terminal-Bench 2.0	ভারী টার্মিনাল কোডিং	GPT-5.3-Codex: ৭৭.৩%	৬৮.৫%
SWE-Bench Pro	অ্যাডভান্সড কোডিং	GPT-5.3-Codex: ৫৬.৮%	প্রকাশ করা হয়নি
OSWorld	কম্পিউটার ব্যবহার	Sonnet 4.6: ৭২.৫%	বেঞ্চমার্ক করা হয়নি

প্রেক্ষাপটে Reasoning-এর উল্লম্ফন

মডেল	ARC-AGI-2	তারিখ
Gemini 3 Pro	৩১.১%	নভেম্বর ২০২৫
GPT-5.2	৫২.৯%	ডিসেম্বর ২০২৫
Claude Opus 4.6	৬৮.৮%	ফেব্রুয়ারি ২০২৬
Gemini 3.1 Pro	৭৭.১%	ফেব্রুয়ারি ২০২৬

Gemini 3 Pro-এর তুলনায় কী পরিবর্তন এসেছে

১. Deep Think ইন্টিগ্রেশন

২. নাটকীয়ভাবে উন্নত Reasoning

পরিসংখ্যানগুলো নিজেই কথা বলে:

বেঞ্চমার্ক	Gemini 3 Pro	Gemini 3.1 Pro	উন্নতি
ARC-AGI-2	৩১.১%	৭৭.১%	+১৪৮%
GPQA Diamond	~৮৮%	৯৪.৩%	+৭%
APEX-Agents	১৮.৪%	৩৩.৫%	+৮২%

৩. উন্নত এজেন্টিক পারফরম্যান্স

৪. বজায় রাখা মাল্টিমোডাল শক্তি

মূল্য নির্ধারণ

এটি Gemini 3 Pro-এর সমান দামেই পাওয়া যাচ্ছে — মূলত একটি ফ্রি আপগ্রেড:

কনটেক্সট সাইজ	ইনপুট (প্রতি ১ মিলিয়ন টোকেনে)	আউটপুট (প্রতি ১ মিলিয়ন টোকেনে)
≤২০০K টোকেন	$২.০০	$১২.০০
>২০০K টোকেন	$৪.০০	$১৮.০০

প্রতিযোগীদের সাথে তুলনা

মডেল	ইনপুট	আউটপুট	আপেক্ষিক খরচ
Gemini 3.1 Pro	$২.০০	$১২.০০	১x
Claude Sonnet 4.6	$৩.০০	$১৫.০০	১.৫x
GPT-5.2	$৫.০০	$১৫.০০	২.০x (ইনপুট)
Claude Opus 4.6	$১৫.০০	$৭৫.০০	৭.৫x

সেশন প্রতি খরচ (১০০K ইনপুট + ২০K আউটপুট)

মডেল	খরচ
Gemini 3.1 Pro	$০.৪৪
Claude Sonnet 4.6	$০.৬০
GPT-5.2	$০.৮০
Claude Opus 4.6	$৩.০০

অতিরিক্ত খরচ অপ্টিমাইজেশন:

Batch mode: ৫০% ডিসকাউন্ট (সেশন প্রতি $০.২২)

Context caching: ক্যাশ করা ইনপুট রিড করতে মূল দামের মাত্র ১০% খরচ হয়

প্রাপ্যতা

কোথায় এটি ব্যবহার করবেন

প্ল্যাটফর্ম	স্ট্যাটাস	মডেল আইডি (Model ID)
Gemini App (ভোক্তাদের জন্য)	পর্যায়ক্রমে চালু হচ্ছে	অটো-সিলেক্টেড
Google AI Studio	এখন উপলব্ধ	`gemini-3.1-pro-preview`
Vertex AI	এখন উপলব্ধ	`gemini-3.1-pro-preview`
Gemini API	এখন উপলব্ধ	`gemini-3.1-pro-preview`
Gemini CLI	এখন উপলব্ধ	`gemini-3.1-pro-preview`
Antigravity	এখন উপলব্ধ	অটো-সিলেক্টেড
Android Studio	এখন উপলব্ধ	অটো-সিলেক্টেড
GitHub Copilot	পাবলিক প্রিভিউ	নির্বাচনযোগ্য (Selectable)
NotebookLM	Pro/Ultra সাবস্ক্রাইবারদের জন্য	অটো-সিলেক্টেড

API কুইক স্টার্ট

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

কাস্টম টুলস এন্ডপয়েন্ট (Custom Tools Endpoint)

উন্নত টুল পারফরম্যান্সের জন্য Google একটি বিশেষ এন্ডপয়েন্টও চালু করেছে:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

এর অর্থ কী

রিজনিং-এর প্রতিযোগিতা আরও তীব্র হচ্ছে

মাত্র ১৩ দিনের মধ্যে তিনটি ফ্রন্টিয়ার মডেল মুক্তি পেয়েছে:

৬ ফেব্রুয়ারি: Claude Opus 4.6 (Anthropic)

১৭ ফেব্রুয়ারি: Claude Sonnet 4.6 (Anthropic)

১৯ ফেব্রুয়ারি: Gemini 3.1 Pro (Google)

বাজেটের মধ্যে সেরা রিজনিং

কোডিংয়ে সমতা

যে অংশটি অনুপস্থিত: কম্পিউটার ব্যবহার

যারা প্রোডাক্ট তৈরি করছেন সেই ডেভেলপারদের জন্য

বাস্তবিক প্রভাবগুলো হলো:

সবচেয়ে সাশ্রয়ী রিজনিং: সেশন প্রতি $০.৪৪ বনাম $০.৬০ (Sonnet) বনাম $০.৮০ (GPT-5.2)

বৈজ্ঞানিক/বিশ্লেষণাত্মক কাজের জন্য সেরা: ৯৪.৩% GPQA Diamond হলো বর্তমানে সর্বোচ্চ স্কোর

কোডিংয়ে প্রতিযোগিতামূলক: ৮০.৬% SWE-bench স্কোর Claude-এর সাথে ব্যবধান কমিয়ে দিয়েছে

মাল্টিমোডাল সুবিধা: নেটিভ ভিডিও/অডিও প্রসেসিং যা Claude এবং GPT-তে এই স্তরে নেই

প্রিভিউ স্ট্যাটাস: এটি এখনও GA (General Availability) নয় — চূড়ান্ত ভার্সনের আগে আরও উন্নতির আশা করা যায়

উৎসসমূহ: