Gemini 3.1 Pro: شرح قفزة Google في التفكير الاستنتاجي
أطلقت Google نموذج Gemini 3.1 Pro في 19 فبراير 2026 — محققاً 77.1% في اختبار ARC-AGI-2، وهو ما يزيد عن ضعف أداء Gemini 3 Pro. إليك تفاصيل كاملة للمؤشرات، والأسعار (2 دولار / 12 دولار لكل مليون توكن)، والتوفر، وما يعنيه ذلك للمطورين.
ملخص سريع (TL;DR)
أطلقت Google نموذج Gemini 3.1 Pro (إصدار تجريبي) في 19 فبراير 2026. الأرقام الرئيسية:
- ARC-AGI-2: 77.1% — أكثر من ضعف Gemini 3 Pro (31.1%)، ويتفوق على Opus 4.6 (68.8%) و GPT-5.2 (52.9%)
- GPQA Diamond: 94.3% — يتصدر جميع النماذج في العلوم على مستوى الدراسات العليا
- SWE-bench: 80.6% — يعادل Opus 4.6 (80.8%) في البرمجة
- السعر: $2/$12 لكل مليون توكن — أرخص نموذج رائد (frontier model)
- سياق 1 مليون توكن — لم يتغير عن Gemini 3 Pro
- يتصدر في 13 من أصل 16 مؤشر أداء خضعت لتقييم Google
- متاح الآن في الإصدار التجريبي: AI Studio، Vertex AI، Gemini CLI، وتطبيق Gemini
ما الذي أعلنته Google
في 19 فبراير 2026، أصدرت Google نموذج Gemini 3.1 Pro — وهو أول تحديث بزيادة ".1" في إصدارات نماذجها. يعتمد هذا الإصدار على Gemini 3 Pro (نوفمبر 2025) من خلال دمج تقنيات من سلسلة Gemini 3 Deep Think في نموذج أسرع وأكثر سهولة في الوصول إليه.
تصف مدونة Google النموذج بأنه مصمم لـ "المهام التي لا تكفي فيها الإجابة البسيطة" — مثل التفكير الاستنتاجي المعقد متعدد الخطوات، وتركيب البيانات، وسير عمل الوكلاء (agentic workflows).
الإحصائية الأبرز: 77.1% في اختبار ARC-AGI-2، وهو مقياس التفكير التجريدي الجديد. هذا الرقم يمثل أكثر من ضعف أداء Gemini 3 Pro البالغ 31.1%، ويتفوق بوضوح على كل من Opus 4.6 (68.8%) و GPT-5.2 (52.9%). وقد وصفته VentureBeat بأنه "نسخة Deep Think Mini مع إمكانية تعديل عمق التفكير عند الطلب."
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
تفاصيل مؤشرات الأداء الكاملة
المجالات التي يتصدر فيها Gemini 3.1 Pro (13 من 16 مؤشر أداء)
| المؤشر | ماذا يختبر | Gemini 3.1 Pro | أفضل منافس |
|---|---|---|---|
| ARC-AGI-2 | التفكير الاستنتاجي الجديد | 77.1% | Opus 4.6: 68.8% |
| GPQA Diamond | علوم الدراسات العليا | 94.3% | GPT-5.2: 92.4% |
| BrowseComp | البحث الويب الوكيل (Agentic) | 85.9% | Opus 4.6: 84.0% |
| Terminal-Bench 2.0 | البرمجة عبر الطرفية (Terminal) | 68.5% | Opus 4.6: 65.4% |
| APEX-Agents | قدرات الوكلاء | 33.5% | Opus 4.6: 29.8% |
| MCP Atlas | استخدام الأدوات | 69.2% | — |
| t2-bench Telecom | مجالات متخصصة | 99.3% | — |
| SWE-bench Verified | البرمجة | 80.6% | Opus 4.6: 80.8% |
| MRCR v2 | السياق الطويل | 84.9% | Sonnet 4.6: 84.9% (تعادل) |
المجالات التي لا يزال المنافسون يتفوقون فيها
| المؤشر | ماذا يختبر | الفائز | Gemini 3.1 Pro |
|---|---|---|---|
| GDPval-AA (Elo) | المهام المكتبية | Sonnet 4.6: 1633 | لم يُكشف عنه |
| Terminal-Bench 2.0 | البرمجة المكثفة عبر الطرفية | GPT-5.3-Codex: 77.3% | 68.5% |
| SWE-Bench Pro | البرمجة المتقدمة | GPT-5.3-Codex: 56.8% | لم يُكشف عنه |
| OSWorld | استخدام الكمبيوتر | Sonnet 4.6: 72.5% | لم يتم اختباره |
قفزة التفكير الاستنتاجي في سياقها
يقيس ARC-AGI-2 قدرة النموذج على حل المشكلات التي لم يراها من قبل — وهو تفكير تجريدي خالص، وليس مجرد مطابقة أنماط من بيانات التدريب. إليك مدى سرعة تحسن Gemini:
| النموذج | ARC-AGI-2 | التاريخ |
|---|---|---|
| Gemini 3 Pro | 31.1% | نوفمبر 2025 |
| GPT-5.2 | 52.9% | ديسمبر 2025 |
| Claude Opus 4.6 | 68.8% | فبراير 2026 |
| Gemini 3.1 Pro | 77.1% | فبراير 2026 |
قفز Gemini 3.1 Pro من 31.1% إلى 77.1% في إصدار واحد — أي تحسن بنسبة 148%. يأتي هذا نتيجة دمج تقنيات التفكير الموسع من Deep Think في النموذج الأساسي.
ما الذي تغير مقارنة بـ Gemini 3 Pro
1. دمج Deep Think
كان Gemini 3 Deep Think نموذجاً منفصلاً وأبطأ، تم تحسينه للتفكير الموسع. يقوم Gemini 3.1 Pro بدمج تلك التقنيات في النموذج القياسي، مع إمكانية تعديل عمق التفكير. ستحصل على تفكير بمستوى Deep Think دون زمن الاستجابة (latency) المرتفع في معظم المهام.
2. تفكير استنتاجي أفضل بشكل كبير
الأرقام تتحدث عن نفسها:
| المؤشر | Gemini 3 Pro | Gemini 3.1 Pro | نسبة التحسن |
|---|---|---|---|
| ARC-AGI-2 | 31.1% | 77.1% | +148% |
| GPQA Diamond | ~88% | 94.3% | +7% |
| APEX-Agents | 18.4% | 33.5% | +82% |
3. أداء وكيل (Agentic) أفضل
تظهر نتائج APEX-Agents (33.5%) و MCP Atlas (69.2%) أن Gemini 3.1 Pro أكثر قدرة بكثير كوكيل ذكاء اصطناعي مستقل — حيث تحسن استخدام الأدوات، والتخطيط متعدد الخطوات، والتصحيح الذاتي.
4. الحفاظ على القوة متعددة الوسائط (Multimodal)
يحتفظ Gemini 3.1 Pro بميزة Gemini الجوهرية: المعالجة الأصلية متعددة الوسائط للنصوص، الصور، الصوت، والفيديو ضمن سياق واحد. لا يوجد نموذج رائد آخر يضاهي هذا الاتساع بهذا السعر.
الأسعار
نفس سعر Gemini 3 Pro — ترقية مجانية:
| حجم السياق | الإدخال (لكل مليون توكن) | الإخراج (لكل مليون توكن) |
|---|---|---|
| ≤ 200 ألف توكن | $2.00 | $12.00 |
| > 200 ألف توكن | $4.00 | $18.00 |
مقارنة مع المنافسين
| النموذج | الإدخال | الإخراج | التكلفة النسبية |
|---|---|---|---|
| Gemini 3.1 Pro | $2.00 | $12.00 | 1x |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 1.5x |
| GPT-5.2 | $5.00 | $15.00 | 2.0x (إدخال) |
| Claude Opus 4.6 | $15.00 | $75.00 | 7.5x |
يعتبر Gemini 3.1 Pro أرخص نموذج رائد — أقل سعراً بنسبة 33% من Sonnet 4.6 في الإدخال، و20% في الإخراج.
التكلفة لكل جلسة (100 ألف إدخال + 20 ألف إخراج)
| النموذج | التكلفة |
|---|---|
| Gemini 3.1 Pro | $0.44 |
| Claude Sonnet 4.6 | $0.60 |
| GPT-5.2 | $0.80 |
| Claude Opus 4.6 | $3.00 |
تحسينات إضافية للتكلفة:
- وضع الدفعات (Batch mode): خصم 50% ($0.22 للجلسة)
- تخزين السياق مؤقتاً (Context caching): تكلفة قراءة الإدخال المخزن مؤقتاً تبلغ 10% من السعر الأساسي
التوفر
أين يمكنك استخدامه
| المنصة | الحالة | معرف النموذج (Model ID) |
|---|---|---|
| تطبيق Gemini (للمستهلكين) | قيد الإطلاق | يتم اختياره تلقائياً |
| Google AI Studio | متاح الآن | gemini-3.1-pro-preview |
| Vertex AI | متاح الآن | gemini-3.1-pro-preview |
| Gemini API | متاح الآن | gemini-3.1-pro-preview |
| Gemini CLI | متاح الآن | gemini-3.1-pro-preview |
| Antigravity | متاح الآن | يتم اختياره تلقائياً |
| Android Studio | متاح الآن | يتم اختياره تلقائياً |
| GitHub Copilot | إصدار تجريبي عام | قابل للاختيار |
| NotebookLM | لمشتركي Pro/Ultra | يتم اختياره تلقائياً |
البداية السريعة مع API
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")
response = model.generate_content("Your prompt here")
print(response.text)
نقطة نهاية الأدوات المخصصة (Custom Tools Endpoint)
أطلقت Google أيضاً نقطة نهاية متخصصة لتحسين أداء الأدوات:
model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")
استخدم نقطة النهاية هذه عند بناء وكلاء يعتمدون بشكل كبير على استدعاء الدوال (function calling) واستخدام الأدوات.
ماذا يعني هذا
سباق التفكير الاستنتاجي يشتعل
تم إطلاق ثلاثة نماذج رائدة في غضون 13 يوماً:
- 6 فبراير: Claude Opus 4.6 (Anthropic)
- 17 فبراير: Claude Sonnet 4.6 (Anthropic)
- 19 فبراير: Gemini 3.1 Pro (Google)
كل نموذج يدعي الصدارة في مجالات مختلفة. مشهد النماذج أصبح متجزئاً — لم يعد هناك نموذج واحد يهيمن على كل شيء.
أفضل تفكير في فئته بأسعار اقتصادية
تحقيق Gemini 3.1 Pro لنسبة 77.1% في ARC-AGI-2 هو أعلى درجة تفكير متاحة حالياً، وبأقل سعر ($2/$12). للمهام التي تتطلب حل مشكلات مبتكرة، أو تفكيراً تجريدياً، أو تحليلاً علمياً، فهو الخيار الأمثل.
التكافؤ في البرمجة
بتحقيقه 80.6% في SWE-bench (مقابل 80.8% لـ Opus 4.6 و79.6% لـ Sonnet 4.6)، أصبح Gemini 3.1 Pro منافساً في البرمجة لأول مرة. كانت نماذج Gemini السابقة تتخلف عن Claude بشكل ملحوظ في هذا المؤشر.
القطعة المفقودة: استخدام الكمبيوتر
لا يتضمن Gemini 3.1 Pro مؤشرات أداء في OSWorld (استخدام الكمبيوتر). يتصدر Claude Sonnet 4.6 بنسبة 72.5% في هذه القدرة. إذا كان سير عملك يتضمن أتمتة المتصفح، ملء النماذج، أو التحكم في سطح المكتب، فلا يزال Claude هو الخيار الوحيد القابل للتطبيق.
للمطورين الذين يبنون منتجات
الآثار العملية:
- أرخص تفكير استنتاجي: $0.44 للجلسة مقابل $0.60 لـ (Sonnet) و $0.80 لـ (GPT-5.2)
- الأفضل للمهام العلمية/التحليلية: نتيجة 94.3% في GPQA Diamond هي أعلى نتيجة متاحة
- منافس في البرمجة: نتيجة 80.6% في SWE-bench تضيق الفجوة مع Claude
- ميزة تعدد الوسائط: معالجة أصلية للفيديو والصوت لا يوفرها Claude و GPT بنفس المستوى
- حالة الإصدار التجريبي: لم يصل بعد إلى التوفر العام (GA) — توقع تحسينات قبل الإطلاق الرسمي
هل تبني باستخدام الذكاء الاصطناعي؟ يتكامل Y Build مع أدوات الذكاء الاصطناعي المفضلة لديك للتطوير، ثم يتولى عمليات النشر، وفيديوهات المنتجات Demo Cut، و AI SEO، والتحليلات — المجموعة الكاملة من الكود إلى النمو. ابدأ مجاناً.
المصادر:
- Google Blog: Gemini 3.1 Pro announcement
- Google DeepMind: Gemini 3.1 Pro Model Card
- 9to5Google: Gemini 3.1 Pro for complex problem-solving
- VentureBeat: Gemini 3.1 Pro first impressions
- MarkTechPost: Gemini 3.1 Pro 77.1% ARC-AGI-2
- OfficeChai: Gemini 3.1 Pro Benchmarks
- GitHub Blog: Gemini 3.1 Pro in GitHub Copilot
- The Decoder: Gemini 3.1 Pro reasoning
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.