Gemini 3.1 Pro: הפריצה של Google בתחום ההסקה (Reasoning) מוסברת

TL;DR

Google שחררה את Gemini 3.1 Pro (גרסת preview) ב-19 בפברואר 2026. המספרים המרכזיים:

ARC-AGI-2: 77.1% — יותר מכפול מ-Gemini 3 Pro (31.1%), עוקף את Opus 4.6 (68.8%) ואת GPT-5.2 (52.9%)
GPQA Diamond: 94.3% — מוביל על כל המודלים במדעים ברמת תארים מתקדמים
SWE-bench: 80.6% — משתווה ל-Opus 4.6 (80.8%) בתכנות
מחיר: $2/$12 למיליון טוקנים — מודל ה-frontier הזול ביותר
הקשר (context) של 1M טוקנים — ללא שינוי מ-Gemini 3 Pro
מוביל ב-13 מתוך 16 מדדי ביצוע (benchmarks) שנבדקו על ידי Google
זמין כעת בגרסת preview ב-: AI Studio, Vertex AI, Gemini CLI, ואפליקציית Gemini

מה Google הכריזה

ב-19 בפברואר 2026, שחררה Google את Gemini 3.1 Pro — התוספת הראשונה של ".1" בגרסאות המודלים שלהם. הוא מתבסס על Gemini 3 Pro (נובמבר 2025) על ידי שילוב טכניקות מסדרת Gemini 3 Deep Think לתוך מודל נגיש ומהיר יותר.

הבלוג של Google מתאר אותו ככזה שנועד ל"משימות שבהן תשובה פשוטה אינה מספיקה" — הסקה מורכבת מרובת שלבים, סינתזת נתונים ותהליכי עבודה מבוססי סוכנים (agentic workflows).

הנתון המרכזי: 77.1% ב-ARC-AGI-2, מדד הביצוע להסקה מופשטת חדשנית. זהו נתון הגבוה פי שניים מה-31.1% של Gemini 3 Pro, ומשמעותית לפני Opus 4.6 (68.8%) ו-GPT-5.2 (52.9%). VentureBeat מכנה אותו "Deep Think Mini עם הסקה מתכווננת לפי דרישה."

פירוט מדדי ביצוע (Benchmarks) מלא

היכן ש-Gemini 3.1 Pro מוביל (13 מתוך 16 מדדים)

מדד (Benchmark)	מה הוא בודק	Gemini 3.1 Pro	המתחרה הטוב ביותר
ARC-AGI-2	הסקה חדשנית (Novel reasoning)	77.1%	Opus 4.6: 68.8%
GPQA Diamond	מדעים ברמת אקדמיה	94.3%	GPT-5.2: 92.4%
BrowseComp	חיפוש אינטרנט באמצעות סוכן	85.9%	Opus 4.6: 84.0%
Terminal-Bench 2.0	תכנות בטרמינל	68.5%	Opus 4.6: 65.4%
APEX-Agents	יכולות סוכנים	33.5%	Opus 4.6: 29.8%
MCP Atlas	שימוש בכלים (Tool use)	69.2%	—
t2-bench Telecom	תחום ספציפי (Domain-specific)	99.3%	—
SWE-bench Verified	תכנות	80.6%	Opus 4.6: 80.8%
MRCR v2	הקשר ארוך (Long-context)	84.9%	Sonnet 4.6: 84.9% (תיקו)

היכן שהמתחרים עדיין מנצחים

מדד (Benchmark)	מה הוא בודק	מנצח	Gemini 3.1 Pro
GDPval-AA (Elo)	משימות משרדיות	Sonnet 4.6: 1633	לא פורסם
Terminal-Bench 2.0	תכנות טרמינל כבד	GPT-5.3-Codex: 77.3%	68.5%
SWE-Bench Pro	תכנות מתקדם	GPT-5.3-Codex: 56.8%	לא פורסם
OSWorld	שימוש במחשב	Sonnet 4.6: 72.5%	לא נבדק

הקפיצה ביכולת ההסקה בהקשר רחב

ARC-AGI-2 מודד את יכולתו של מודל לפתור בעיות שהוא מעולם לא ראה לפני כן — הסקה מופשטת טהורה, ולא התאמת תבניות מנתוני האימון. כך השתפר Gemini במהירות:

מודל	ARC-AGI-2	תאריך
Gemini 3 Pro	31.1%	נובמבר 2025
GPT-5.2	52.9%	דצמבר 2025
Claude Opus 4.6	68.8%	פברואר 2026
Gemini 3.1 Pro	77.1%	פברואר 2026

Gemini 3.1 Pro קפץ מ-31.1% ל-77.1% בגרסה אחת — שיפור של 148%. זה נובע משילוב טכניקות ההסקה המורחבות של Deep Think לתוך מודל הבסיס.

מה השתנה לעומת Gemini 3 Pro

1. אינטגרציה של Deep Think

Gemini 3 Deep Think היה מודל נפרד ואיטי יותר שעבר אופטימיזציה להסקה מורחבת. Gemini 3.1 Pro מטמיע את הטכניקות הללו לתוך המודל הסטנדרטי, עם עומק הסקה מתכוונן. מקבלים הסקה ברמת Deep Think ללא זמן ההשהיה (latency) של Deep Think ברוב המשימות.

2. הסקה טובה משמעותית

המספרים מדברים בעד עצמם:

מדד (Benchmark)	Gemini 3 Pro	Gemini 3.1 Pro	שיפור
ARC-AGI-2	31.1%	77.1%	+148%
GPQA Diamond	~88%	94.3%	+7%
APEX-Agents	18.4%	33.5%	+82%

3. ביצועים טובים יותר כסוכן (Agentic)

ציוני APEX-Agents (33.5%) ו-MCP Atlas (69.2%) מראים ש-Gemini 3.1 Pro מסוגל משמעותית יותר כסוכן אוטונומי — שימוש בכלים, תכנון מרובת שלבים ותיקון עצמי כולם השתפרו.

4. שמירה על חוזק מולטימודלי

Gemini 3.1 Pro שומר על היתרון המרכזי של Gemini: עיבוד מולטימודלי נייטיב של טקסט, תמונות, אודיו ווידאו בתוך הקשר (context) יחיד. אף מודל frontier אחר אינו משתווה לרוחב הזה בנקודת מחיר זו.

תמחור

אותו מחיר כמו Gemini 3 Pro — שדרוג חינם:

גודל הקשר (Context)	קלט (למיליון טוקנים)	פלט (למיליון טוקנים)
≤200K טוקנים	$2.00	$12.00
>200K טוקנים	$4.00	$18.00

השוואה למתחרים

מודל	קלט	פלט	עלות יחסית
Gemini 3.1 Pro	$2.00	$12.00	1x
Claude Sonnet 4.6	$3.00	$15.00	1.5x
GPT-5.2	$5.00	$15.00	2.0x (קלט)
Claude Opus 4.6	$15.00	$75.00	7.5x

Gemini 3.1 Pro הוא מודל ה-frontier הזול ביותר — 33% זול יותר מ-Sonnet 4.6 בקלט, ו-20% זול יותר בפלט.

עלות לסשן (100K קלט + 20K פלט)

מודל	עלות
Gemini 3.1 Pro	$0.44
Claude Sonnet 4.6	$0.60
GPT-5.2	$0.80
Claude Opus 4.6	$3.00

אופטימיזציית עלויות נוספת:

מצב באץ' (Batch mode): 50% הנחה ($0.22/סשן)

Context caching: קריאות קלט שמורות (cached) עולות 10% ממחיר הבסיס

זמינות

איפה ניתן להשתמש בו

פלטפורמה	סטטוס	מזהה מודל
Gemini App (לצרכנים)	בתהליך פריסה	נבחר אוטומטית
Google AI Studio	זמין כעת	`gemini-3.1-pro-preview`
Vertex AI	זמין כעת	`gemini-3.1-pro-preview`
Gemini API	זמין כעת	`gemini-3.1-pro-preview`
Gemini CLI	זמין כעת	`gemini-3.1-pro-preview`
Antigravity	זמין כעת	נבחר אוטומטית
Android Studio	זמין כעת	נבחר אוטומטית
GitHub Copilot	ב-Public preview	ניתן לבחירה
NotebookLM	למנויי Pro/Ultra	נבחר אוטומטית

API Quick Start

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Custom Tools Endpoint

Google השיקה גם endpoint ייעודי לביצועי כלים טובים יותר:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

השתמשו ב-endpoint הזה כשאתם בונים סוכנים המסתמכים בכבדות על function calling ושימוש בכלים.

מה זה אומר

מירוץ ההסקה מתחמם

שלושה מודלי frontier שוחררו תוך 13 ימים:

6 בפברואר: Claude Opus 4.6 (Anthropic)

17 בפברואר: Claude Sonnet 4.6 (Anthropic)

19 בפברואר: Gemini 3.1 Pro (Google)

כל אחד טוען להובלה בתחומים שונים. נוף המודלים הופך למבוזר — אין כבר מודל יחיד ששולט בכל התחומים.

ההסקה הטובה ביותר במחיר תקציבי

ציון ה-ARC-AGI-2 של Gemini 3.1 Pro (77.1%) הוא ציון ההסקה הגבוה ביותר הזמין כיום, במחיר הנמוך ביותר ($2/$12). למשימות הדורשות פתרון בעיות חדשניות, הסקה מופשטת או ניתוח מדעי, זו הבחירה הברורה.

שוויון בתכנות

עם 80.6% ב-SWE-bench (לעומת 80.8% של Opus 4.6 ו-79.6% של Sonnet 4.6), Gemini 3.1 Pro הופך לתחרותי בתכנות בפעם הראשונה. מודלי Gemini קודמים פיגרו משמעותית אחרי Claude במדד זה.

החלק החסר: שימוש במחשב (Computer Use)

Gemini 3.1 Pro אינו מציג מדדי ביצוע ב-OSWorld (שימוש במחשב). Claude Sonnet 4.6 מוביל עם 72.5% ביכולת זו. אם תהליך העבודה שלכם כולל אוטומציה של דפדפן, מילוי טפסים או שליטה בשולחן העבודה, Claude נשאר האופציה היחידה הרלוונטית.

למפתחים שבונים מוצרים

ההשלכות הפרקטיות:

ההסקה הזולה ביותר: $0.44/סשן לעומת $0.60 (Sonnet) לעומת $0.80 (GPT-5.2)

הכי טוב למשימות מדעיות/אנליטיות: 94.3% ב-GPQA Diamond הוא הציון הגבוה ביותר הזמין

תחרותי בתכנות: 80.6% ב-SWE-bench מצמצם את הפער מול Claude

יתרון מולטימודלי: עיבוד וידאו/אודיו נייטיב ש-Claude ו-GPT לא משתווים אליו

סטטוס Preview: עדיין לא GA — צפו לשיפורים לפני השחרור הכללי

בונים עם AI? Y Build משתלב עם כלי ה-AI המועדפים עליכם לפיתוח, ואז מטפל בפריסה (deployment), סרטוני מוצר Demo Cut, קידום AI SEO ואנליטיקה — המחסנית המלאה מקוד לצמיחה. התחילו בחינם.

מקורות:

TL;DR

Google שחררה את Gemini 3.1 Pro (גרסת preview) ב-19 בפברואר 2026. המספרים המרכזיים:

ARC-AGI-2: 77.1% — יותר מכפול מ-Gemini 3 Pro (31.1%), עוקף את Opus 4.6 (68.8%) ואת GPT-5.2 (52.9%)
GPQA Diamond: 94.3% — מוביל על כל המודלים במדעים ברמת תארים מתקדמים
SWE-bench: 80.6% — משתווה ל-Opus 4.6 (80.8%) בתכנות
מחיר: $2/$12 למיליון טוקנים — מודל ה-frontier הזול ביותר
הקשר (context) של 1M טוקנים — ללא שינוי מ-Gemini 3 Pro
מוביל ב-13 מתוך 16 מדדי ביצוע (benchmarks) שנבדקו על ידי Google
זמין כעת בגרסת preview ב-: AI Studio, Vertex AI, Gemini CLI, ואפליקציית Gemini

מה Google הכריזה

פירוט מדדי ביצוע (Benchmarks) מלא

היכן ש-Gemini 3.1 Pro מוביל (13 מתוך 16 מדדים)

מדד (Benchmark)	מה הוא בודק	Gemini 3.1 Pro	המתחרה הטוב ביותר
ARC-AGI-2	הסקה חדשנית (Novel reasoning)	77.1%	Opus 4.6: 68.8%
GPQA Diamond	מדעים ברמת אקדמיה	94.3%	GPT-5.2: 92.4%
BrowseComp	חיפוש אינטרנט באמצעות סוכן	85.9%	Opus 4.6: 84.0%
Terminal-Bench 2.0	תכנות בטרמינל	68.5%	Opus 4.6: 65.4%
APEX-Agents	יכולות סוכנים	33.5%	Opus 4.6: 29.8%
MCP Atlas	שימוש בכלים (Tool use)	69.2%	—
t2-bench Telecom	תחום ספציפי (Domain-specific)	99.3%	—
SWE-bench Verified	תכנות	80.6%	Opus 4.6: 80.8%
MRCR v2	הקשר ארוך (Long-context)	84.9%	Sonnet 4.6: 84.9% (תיקו)

היכן שהמתחרים עדיין מנצחים

מדד (Benchmark)	מה הוא בודק	מנצח	Gemini 3.1 Pro
GDPval-AA (Elo)	משימות משרדיות	Sonnet 4.6: 1633	לא פורסם
Terminal-Bench 2.0	תכנות טרמינל כבד	GPT-5.3-Codex: 77.3%	68.5%
SWE-Bench Pro	תכנות מתקדם	GPT-5.3-Codex: 56.8%	לא פורסם
OSWorld	שימוש במחשב	Sonnet 4.6: 72.5%	לא נבדק

הקפיצה ביכולת ההסקה בהקשר רחב

מודל	ARC-AGI-2	תאריך
Gemini 3 Pro	31.1%	נובמבר 2025
GPT-5.2	52.9%	דצמבר 2025
Claude Opus 4.6	68.8%	פברואר 2026
Gemini 3.1 Pro	77.1%	פברואר 2026

Gemini 3.1 Pro קפץ מ-31.1% ל-77.1% בגרסה אחת — שיפור של 148%. זה נובע משילוב טכניקות ההסקה המורחבות של Deep Think לתוך מודל הבסיס.

מה השתנה לעומת Gemini 3 Pro

1. אינטגרציה של Deep Think

2. הסקה טובה משמעותית

המספרים מדברים בעד עצמם:

מדד (Benchmark)	Gemini 3 Pro	Gemini 3.1 Pro	שיפור
ARC-AGI-2	31.1%	77.1%	+148%
GPQA Diamond	~88%	94.3%	+7%
APEX-Agents	18.4%	33.5%	+82%

3. ביצועים טובים יותר כסוכן (Agentic)

4. שמירה על חוזק מולטימודלי

תמחור

אותו מחיר כמו Gemini 3 Pro — שדרוג חינם:

גודל הקשר (Context)	קלט (למיליון טוקנים)	פלט (למיליון טוקנים)
≤200K טוקנים	$2.00	$12.00
>200K טוקנים	$4.00	$18.00

השוואה למתחרים

מודל	קלט	פלט	עלות יחסית
Gemini 3.1 Pro	$2.00	$12.00	1x
Claude Sonnet 4.6	$3.00	$15.00	1.5x
GPT-5.2	$5.00	$15.00	2.0x (קלט)
Claude Opus 4.6	$15.00	$75.00	7.5x

Gemini 3.1 Pro הוא מודל ה-frontier הזול ביותר — 33% זול יותר מ-Sonnet 4.6 בקלט, ו-20% זול יותר בפלט.

עלות לסשן (100K קלט + 20K פלט)

מודל	עלות
Gemini 3.1 Pro	$0.44
Claude Sonnet 4.6	$0.60
GPT-5.2	$0.80
Claude Opus 4.6	$3.00

אופטימיזציית עלויות נוספת:

מצב באץ' (Batch mode): 50% הנחה ($0.22/סשן)

Context caching: קריאות קלט שמורות (cached) עולות 10% ממחיר הבסיס

זמינות

איפה ניתן להשתמש בו

פלטפורמה	סטטוס	מזהה מודל
Gemini App (לצרכנים)	בתהליך פריסה	נבחר אוטומטית
Google AI Studio	זמין כעת	`gemini-3.1-pro-preview`
Vertex AI	זמין כעת	`gemini-3.1-pro-preview`
Gemini API	זמין כעת	`gemini-3.1-pro-preview`
Gemini CLI	זמין כעת	`gemini-3.1-pro-preview`
Antigravity	זמין כעת	נבחר אוטומטית
Android Studio	זמין כעת	נבחר אוטומטית
GitHub Copilot	ב-Public preview	ניתן לבחירה
NotebookLM	למנויי Pro/Ultra	נבחר אוטומטית

API Quick Start

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Custom Tools Endpoint

Google השיקה גם endpoint ייעודי לביצועי כלים טובים יותר:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

השתמשו ב-endpoint הזה כשאתם בונים סוכנים המסתמכים בכבדות על function calling ושימוש בכלים.

מה זה אומר

מירוץ ההסקה מתחמם

שלושה מודלי frontier שוחררו תוך 13 ימים:

6 בפברואר: Claude Opus 4.6 (Anthropic)

17 בפברואר: Claude Sonnet 4.6 (Anthropic)

19 בפברואר: Gemini 3.1 Pro (Google)

כל אחד טוען להובלה בתחומים שונים. נוף המודלים הופך למבוזר — אין כבר מודל יחיד ששולט בכל התחומים.

ההסקה הטובה ביותר במחיר תקציבי

שוויון בתכנות

החלק החסר: שימוש במחשב (Computer Use)

למפתחים שבונים מוצרים

ההשלכות הפרקטיות:

ההסקה הזולה ביותר: $0.44/סשן לעומת $0.60 (Sonnet) לעומת $0.80 (GPT-5.2)

הכי טוב למשימות מדעיות/אנליטיות: 94.3% ב-GPQA Diamond הוא הציון הגבוה ביותר הזמין

תחרותי בתכנות: 80.6% ב-SWE-bench מצמצם את הפער מול Claude

יתרון מולטימודלי: עיבוד וידאו/אודיו נייטיב ש-Claude ו-GPT לא משתווים אליו

סטטוס Preview: עדיין לא GA — צפו לשיפורים לפני השחרור הכללי

מקורות: