Gemini 3.1 Pro: הפריצה של Google בתחום ההסקה (Reasoning) מוסברת
Google שחררה את Gemini 3.1 Pro ב-19 בפברואר 2026 — עם ציון של 77.1% במדד ARC-AGI-2, יותר מכפול מ-Gemini 3 Pro. פירוט מלא של מדדי ביצוע (benchmarks), תמחור ($2/$12 למיליון טוקנים), זמינות, ומה המשמעות עבור מפתחים.
TL;DR
Google שחררה את Gemini 3.1 Pro (גרסת preview) ב-19 בפברואר 2026. המספרים המרכזיים:
- ARC-AGI-2: 77.1% — יותר מכפול מ-Gemini 3 Pro (31.1%), עוקף את Opus 4.6 (68.8%) ואת GPT-5.2 (52.9%)
- GPQA Diamond: 94.3% — מוביל על כל המודלים במדעים ברמת תארים מתקדמים
- SWE-bench: 80.6% — משתווה ל-Opus 4.6 (80.8%) בתכנות
- מחיר: $2/$12 למיליון טוקנים — מודל ה-frontier הזול ביותר
- הקשר (context) של 1M טוקנים — ללא שינוי מ-Gemini 3 Pro
- מוביל ב-13 מתוך 16 מדדי ביצוע (benchmarks) שנבדקו על ידי Google
- זמין כעת בגרסת preview ב-: AI Studio, Vertex AI, Gemini CLI, ואפליקציית Gemini
מה Google הכריזה
ב-19 בפברואר 2026, שחררה Google את Gemini 3.1 Pro — התוספת הראשונה של ".1" בגרסאות המודלים שלהם. הוא מתבסס על Gemini 3 Pro (נובמבר 2025) על ידי שילוב טכניקות מסדרת Gemini 3 Deep Think לתוך מודל נגיש ומהיר יותר.
הבלוג של Google מתאר אותו ככזה שנועד ל"משימות שבהן תשובה פשוטה אינה מספיקה" — הסקה מורכבת מרובת שלבים, סינתזת נתונים ותהליכי עבודה מבוססי סוכנים (agentic workflows).
הנתון המרכזי: 77.1% ב-ARC-AGI-2, מדד הביצוע להסקה מופשטת חדשנית. זהו נתון הגבוה פי שניים מה-31.1% של Gemini 3 Pro, ומשמעותית לפני Opus 4.6 (68.8%) ו-GPT-5.2 (52.9%). VentureBeat מכנה אותו "Deep Think Mini עם הסקה מתכווננת לפי דרישה."
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
פירוט מדדי ביצוע (Benchmarks) מלא
היכן ש-Gemini 3.1 Pro מוביל (13 מתוך 16 מדדים)
| מדד (Benchmark) | מה הוא בודק | Gemini 3.1 Pro | המתחרה הטוב ביותר |
|---|---|---|---|
| ARC-AGI-2 | הסקה חדשנית (Novel reasoning) | 77.1% | Opus 4.6: 68.8% |
| GPQA Diamond | מדעים ברמת אקדמיה | 94.3% | GPT-5.2: 92.4% |
| BrowseComp | חיפוש אינטרנט באמצעות סוכן | 85.9% | Opus 4.6: 84.0% |
| Terminal-Bench 2.0 | תכנות בטרמינל | 68.5% | Opus 4.6: 65.4% |
| APEX-Agents | יכולות סוכנים | 33.5% | Opus 4.6: 29.8% |
| MCP Atlas | שימוש בכלים (Tool use) | 69.2% | — |
| t2-bench Telecom | תחום ספציפי (Domain-specific) | 99.3% | — |
| SWE-bench Verified | תכנות | 80.6% | Opus 4.6: 80.8% |
| MRCR v2 | הקשר ארוך (Long-context) | 84.9% | Sonnet 4.6: 84.9% (תיקו) |
היכן שהמתחרים עדיין מנצחים
| מדד (Benchmark) | מה הוא בודק | מנצח | Gemini 3.1 Pro |
|---|---|---|---|
| GDPval-AA (Elo) | משימות משרדיות | Sonnet 4.6: 1633 | לא פורסם |
| Terminal-Bench 2.0 | תכנות טרמינל כבד | GPT-5.3-Codex: 77.3% | 68.5% |
| SWE-Bench Pro | תכנות מתקדם | GPT-5.3-Codex: 56.8% | לא פורסם |
| OSWorld | שימוש במחשב | Sonnet 4.6: 72.5% | לא נבדק |
הקפיצה ביכולת ההסקה בהקשר רחב
ARC-AGI-2 מודד את יכולתו של מודל לפתור בעיות שהוא מעולם לא ראה לפני כן — הסקה מופשטת טהורה, ולא התאמת תבניות מנתוני האימון. כך השתפר Gemini במהירות:
| מודל | ARC-AGI-2 | תאריך |
|---|---|---|
| Gemini 3 Pro | 31.1% | נובמבר 2025 |
| GPT-5.2 | 52.9% | דצמבר 2025 |
| Claude Opus 4.6 | 68.8% | פברואר 2026 |
| Gemini 3.1 Pro | 77.1% | פברואר 2026 |
Gemini 3.1 Pro קפץ מ-31.1% ל-77.1% בגרסה אחת — שיפור של 148%. זה נובע משילוב טכניקות ההסקה המורחבות של Deep Think לתוך מודל הבסיס.
מה השתנה לעומת Gemini 3 Pro
1. אינטגרציה של Deep Think
Gemini 3 Deep Think היה מודל נפרד ואיטי יותר שעבר אופטימיזציה להסקה מורחבת. Gemini 3.1 Pro מטמיע את הטכניקות הללו לתוך המודל הסטנדרטי, עם עומק הסקה מתכוונן. מקבלים הסקה ברמת Deep Think ללא זמן ההשהיה (latency) של Deep Think ברוב המשימות.
2. הסקה טובה משמעותית
המספרים מדברים בעד עצמם:
| מדד (Benchmark) | Gemini 3 Pro | Gemini 3.1 Pro | שיפור |
|---|---|---|---|
| ARC-AGI-2 | 31.1% | 77.1% | +148% |
| GPQA Diamond | ~88% | 94.3% | +7% |
| APEX-Agents | 18.4% | 33.5% | +82% |
3. ביצועים טובים יותר כסוכן (Agentic)
ציוני APEX-Agents (33.5%) ו-MCP Atlas (69.2%) מראים ש-Gemini 3.1 Pro מסוגל משמעותית יותר כסוכן אוטונומי — שימוש בכלים, תכנון מרובת שלבים ותיקון עצמי כולם השתפרו.
4. שמירה על חוזק מולטימודלי
Gemini 3.1 Pro שומר על היתרון המרכזי של Gemini: עיבוד מולטימודלי נייטיב של טקסט, תמונות, אודיו ווידאו בתוך הקשר (context) יחיד. אף מודל frontier אחר אינו משתווה לרוחב הזה בנקודת מחיר זו.
תמחור
אותו מחיר כמו Gemini 3 Pro — שדרוג חינם:
| גודל הקשר (Context) | קלט (למיליון טוקנים) | פלט (למיליון טוקנים) |
|---|---|---|
| ≤200K טוקנים | $2.00 | $12.00 |
| >200K טוקנים | $4.00 | $18.00 |
השוואה למתחרים
| מודל | קלט | פלט | עלות יחסית |
|---|---|---|---|
| Gemini 3.1 Pro | $2.00 | $12.00 | 1x |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 1.5x |
| GPT-5.2 | $5.00 | $15.00 | 2.0x (קלט) |
| Claude Opus 4.6 | $15.00 | $75.00 | 7.5x |
Gemini 3.1 Pro הוא מודל ה-frontier הזול ביותר — 33% זול יותר מ-Sonnet 4.6 בקלט, ו-20% זול יותר בפלט.
עלות לסשן (100K קלט + 20K פלט)
| מודל | עלות |
|---|---|
| Gemini 3.1 Pro | $0.44 |
| Claude Sonnet 4.6 | $0.60 |
| GPT-5.2 | $0.80 |
| Claude Opus 4.6 | $3.00 |
אופטימיזציית עלויות נוספת:
- מצב באץ' (Batch mode): 50% הנחה ($0.22/סשן)
- Context caching: קריאות קלט שמורות (cached) עולות 10% ממחיר הבסיס
זמינות
איפה ניתן להשתמש בו
| פלטפורמה | סטטוס | מזהה מודל |
|---|---|---|
| Gemini App (לצרכנים) | בתהליך פריסה | נבחר אוטומטית |
| Google AI Studio | זמין כעת | gemini-3.1-pro-preview |
| Vertex AI | זמין כעת | gemini-3.1-pro-preview |
| Gemini API | זמין כעת | gemini-3.1-pro-preview |
| Gemini CLI | זמין כעת | gemini-3.1-pro-preview |
| Antigravity | זמין כעת | נבחר אוטומטית |
| Android Studio | זמין כעת | נבחר אוטומטית |
| GitHub Copilot | ב-Public preview | ניתן לבחירה |
| NotebookLM | למנויי Pro/Ultra | נבחר אוטומטית |
API Quick Start
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")
response = model.generate_content("Your prompt here")
print(response.text)
Custom Tools Endpoint
Google השיקה גם endpoint ייעודי לביצועי כלים טובים יותר:
model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")
השתמשו ב-endpoint הזה כשאתם בונים סוכנים המסתמכים בכבדות על function calling ושימוש בכלים.
מה זה אומר
מירוץ ההסקה מתחמם
שלושה מודלי frontier שוחררו תוך 13 ימים:
- 6 בפברואר: Claude Opus 4.6 (Anthropic)
- 17 בפברואר: Claude Sonnet 4.6 (Anthropic)
- 19 בפברואר: Gemini 3.1 Pro (Google)
כל אחד טוען להובלה בתחומים שונים. נוף המודלים הופך למבוזר — אין כבר מודל יחיד ששולט בכל התחומים.
ההסקה הטובה ביותר במחיר תקציבי
ציון ה-ARC-AGI-2 של Gemini 3.1 Pro (77.1%) הוא ציון ההסקה הגבוה ביותר הזמין כיום, במחיר הנמוך ביותר ($2/$12). למשימות הדורשות פתרון בעיות חדשניות, הסקה מופשטת או ניתוח מדעי, זו הבחירה הברורה.
שוויון בתכנות
עם 80.6% ב-SWE-bench (לעומת 80.8% של Opus 4.6 ו-79.6% של Sonnet 4.6), Gemini 3.1 Pro הופך לתחרותי בתכנות בפעם הראשונה. מודלי Gemini קודמים פיגרו משמעותית אחרי Claude במדד זה.
החלק החסר: שימוש במחשב (Computer Use)
Gemini 3.1 Pro אינו מציג מדדי ביצוע ב-OSWorld (שימוש במחשב). Claude Sonnet 4.6 מוביל עם 72.5% ביכולת זו. אם תהליך העבודה שלכם כולל אוטומציה של דפדפן, מילוי טפסים או שליטה בשולחן העבודה, Claude נשאר האופציה היחידה הרלוונטית.
למפתחים שבונים מוצרים
ההשלכות הפרקטיות:
- ההסקה הזולה ביותר: $0.44/סשן לעומת $0.60 (Sonnet) לעומת $0.80 (GPT-5.2)
- הכי טוב למשימות מדעיות/אנליטיות: 94.3% ב-GPQA Diamond הוא הציון הגבוה ביותר הזמין
- תחרותי בתכנות: 80.6% ב-SWE-bench מצמצם את הפער מול Claude
- יתרון מולטימודלי: עיבוד וידאו/אודיו נייטיב ש-Claude ו-GPT לא משתווים אליו
- סטטוס Preview: עדיין לא GA — צפו לשיפורים לפני השחרור הכללי
בונים עם AI? Y Build משתלב עם כלי ה-AI המועדפים עליכם לפיתוח, ואז מטפל בפריסה (deployment), סרטוני מוצר Demo Cut, קידום AI SEO ואנליטיקה — המחסנית המלאה מקוד לצמיחה. התחילו בחינם.
מקורות:
- Google Blog: Gemini 3.1 Pro announcement
- Google DeepMind: Gemini 3.1 Pro Model Card
- 9to5Google: Gemini 3.1 Pro for complex problem-solving
- VentureBeat: Gemini 3.1 Pro first impressions
- MarkTechPost: Gemini 3.1 Pro 77.1% ARC-AGI-2
- OfficeChai: Gemini 3.1 Pro Benchmarks
- GitHub Blog: Gemini 3.1 Pro in GitHub Copilot
- The Decoder: Gemini 3.1 Pro reasoning
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.