Gemini 3.1 Pro: Пояснення стрибка Google у логічному міркуванні

TL;DR

Google випустила Gemini 3.1 Pro (preview) 19 лютого 2026 року. Ключові показники:

ARC-AGI-2: 77,1% — більш ніж удвічі перевищує Gemini 3 Pro (31,1%), перевершує Opus 4.6 (68,8%) та GPT-5.2 (52,9%)
GPQA Diamond: 94,3% — лідирує серед усіх моделей у наукових завданнях магістерського рівня
SWE-bench: 80,6% — відповідає Opus 4.6 (80,8%) у кодуванні
Ціна: $2/$12 за 1 млн токенів — найдешевша передова модель
Контекст 1 млн токенів — без змін порівняно з Gemini 3 Pro
Лідирує в 13 з 16 бенчмарків, оцінених Google
Доступно вже зараз у режимі preview: AI Studio, Vertex AI, Gemini CLI, додаток Gemini

Що анонсувала Google

19 лютого 2026 року Google випустила Gemini 3.1 Pro — перше оновлення «.1» у версіях їхніх моделей. Вона базується на Gemini 3 Pro (листопад 2025 року), інтегруючи методи з серії Gemini 3 Deep Think у доступнішу та швидшу модель.

У блозі Google модель описується як розроблена для «завдань, де простої відповіді недостатньо» — складних багатоетапних міркувань, синтезу даних та агентських робочих процесів.

Головний показник: 77,1% у ARC-AGI-2, бенчмарку для нових абстрактних міркувань. Це більш ніж удвічі перевищує 31,1% у Gemini 3 Pro і значно випереджає як Opus 4.6 (68,8%), так і GPT-5.2 (52,9%). VentureBeat називає її «Deep Think Mini з регульованим рівнем міркувань за запитом».

Повний розбір бенчмарків

Де Gemini 3.1 Pro лідирує (13 з 16 бенчмарків)

Бенчмарк	Що тестує	Gemini 3.1 Pro	Найкращий конкурент
ARC-AGI-2	Нові міркування	77,1%	Opus 4.6: 68,8%
GPQA Diamond	Наука (магістерський рівень)	94,3%	GPT-5.2: 92,4%
BrowseComp	Агентський вебпошук	85,9%	Opus 4.6: 84,0%
Terminal-Bench 2.0	Кодування в терміналі	68,5%	Opus 4.6: 65,4%
APEX-Agents	Можливості агентів	33,5%	Opus 4.6: 29,8%
MCP Atlas	Використання інструментів	69,2%	—
t2-bench Telecom	Спеціалізована область	99,3%	—
SWE-bench Verified	Кодування	80,6%	Opus 4.6: 80,8%
MRCR v2	Довгий контекст	84,9%	Sonnet 4.6: 84,9% (нічия)

Де конкуренти все ще перемагають

Бенчмарк	Що тестує	Переможець	Gemini 3.1 Pro
GDPval-AA (Elo)	Офісні завдання	Sonnet 4.6: 1633	Не розголошується
Terminal-Bench 2.0	Складне кодування в терміналі	GPT-5.3-Codex: 77,3%	68,5%
SWE-Bench Pro	Просунуте кодування	GPT-5.3-Codex: 56,8%	Не розголошується
OSWorld	Використання комп'ютера	Sonnet 4.6: 72,5%	Не тестувалося

Стрибок у логічному міркуванні в контексті

ARC-AGI-2 вимірює здатність моделі вирішувати завдання, яких вона ніколи раніше не бачила — чисте абстрактне мислення, а не зіставлення шаблонів із навчальних даних. Ось як швидко покращувалася Gemini:

Модель	ARC-AGI-2	Дата
Gemini 3 Pro	31,1%	Листопад 2025
GPT-5.2	52,9%	Грудень 2025
Claude Opus 4.6	68,8%	Лютий 2026
Gemini 3.1 Pro	77,1%	Лютий 2026

Gemini 3.1 Pro стрибнула з 31,1% до 77,1% за одну версію — покращення на 148%. Це стало можливим завдяки інтеграції методів розширеного мислення Deep Think у базову модель.

Що змінилося порівняно з Gemini 3 Pro

1. Інтеграція Deep Think

Gemini 3 Deep Think була окремою, повільнішою моделлю, оптимізованою для тривалих міркувань. Gemini 3.1 Pro впроваджує ці методи в стандартну модель із можливістю регулювання глибини міркувань. Ви отримуєте рівень міркувань Deep Think без затримок Deep Think для більшості завдань.

2. Кардинально кращі міркування

Цифри говорять самі за себе:

Бенчмарк	Gemini 3 Pro	Gemini 3.1 Pro	Покращення
ARC-AGI-2	31,1%	77,1%	+148%
GPQA Diamond	~88%	94,3%	+7%
APEX-Agents	18,4%	33,5%	+82%

3. Краща продуктивність агентів

Показники APEX-Agents (33,5%) та MCP Atlas (69,2%) свідчать про те, що Gemini 3.1 Pro значно здатніша як автономний агент — використання інструментів, багатоетапне планування та самовиправлення були покращені.

4. Збереження мультимодальних переваг

Gemini 3.1 Pro зберігає ключову перевагу Gemini: нативну мультимодальну обробку тексту, зображень, аудіо та відео в межах одного контексту. Жодна інша передова модель не пропонує такої широти можливостей за цією ціною.

Ціноутворення

Ціна така ж, як у Gemini 3 Pro — безкоштовне оновлення:

Розмір контексту	Вхідні (за 1 млн токенів)	Вихідні (за 1 млн токенів)
≤200K токенів	$2.00	$12.00
>200K токенів	$4.00	$18.00

Порівняння з конкурентами

Модель	Вхідні	Вихідні	Відносна вартість
Gemini 3.1 Pro	$2.00	$12.00	1x
Claude Sonnet 4.6	$3.00	$15.00	1,5x
GPT-5.2	$5.00	$15.00	2,0x (input)
Claude Opus 4.6	$15.00	$75.00	7,5x

Gemini 3.1 Pro — найдешевша передова модель: на 33% дешевша за Sonnet 4.6 на вхідних токенах та на 20% дешевша на вихідних.

Вартість за сесію (100K вхід + 20K вихід)

Модель	Вартість
Gemini 3.1 Pro	$0.44
Claude Sonnet 4.6	$0.60
GPT-5.2	$0.80
Claude Opus 4.6	$3.00

Додаткова оптимізація витрат:

Пакетний режим (Batch mode): знижка 50% ($0.22/сесія)

Кешування контексту: читання кешованих вхідних даних коштує 10% від базової ціни

Доступність

Де використовувати

Платформа	Статус	ID моделі
Gemini App (для споживачів)	Впроваджується	Обирається автоматично
Google AI Studio	Доступно зараз	`gemini-3.1-pro-preview`
Vertex AI	Доступно зараз	`gemini-3.1-pro-preview`
Gemini API	Доступно зараз	`gemini-3.1-pro-preview`
Gemini CLI	Доступно зараз	`gemini-3.1-pro-preview`
Antigravity	Доступно зараз	Обирається автоматично
Android Studio	Доступно зараз	Обирається автоматично
GitHub Copilot	Public preview	Можна обрати
NotebookLM	Підписники Pro/Ultra	Обирається автоматично

Швидкий старт з API

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Ендпоінт для кастомних інструментів

Google також запустила спеціалізований ендпоінт для кращої продуктивності інструментів:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Використовуйте цей ендпоінт під час створення агентів, які значною мірою покладаються на виклик функцій та використання інструментів.

Що це означає

Гонка міркувань набирає обертів

Три передові моделі випущено за 13 днів:

6 лютого: Claude Opus 4.6 (Anthropic)

17 лютого: Claude Sonnet 4.6 (Anthropic)

19 лютого: Gemini 3.1 Pro (Google)

Кожна заявляє про лідерство в різних сферах. Ландшафт моделей фрагментується — жодна модель більше не домінує в усьому.

Найкращі у своєму класі міркування за бюджетною ціною

Результат Gemini 3.1 Pro у 77,1% на ARC-AGI-2 — це найвищий доступний бал за міркування за найнижчою ціною ($2/$12). Для завдань, що потребують вирішення нових проблем, абстрактного мислення або наукового аналізу, це очевидний вибір.

Паритет у кодуванні

З результатом 80,6% на SWE-bench (проти 80,8% у Opus 4.6 і 79,6% у Sonnet 4.6), Gemini 3.1 Pro вперше стає конкурентоспроможною в кодуванні. Попередні моделі Gemini значно поступалися Claude у цьому бенчмарку.

Відсутня ланка: Використання комп'ютера

Gemini 3.1 Pro не тестувалася на OSWorld (використання комп'ютера). Claude Sonnet 4.6 лідирує з результатом 72,5% у цій категорії. Якщо ваш робочий процес включає автоматизацію браузера, заповнення форм або керування робочим столом, Claude залишається єдиним життєздатним варіантом.

Для розробників, які створюють продукти

Практичні наслідки:

Найдешевші міркування: $0.44/сесія проти $0.60 (Sonnet) та $0.80 (GPT-5.2)

Найкраща для наукових/аналітичних завдань: 94,3% на GPQA Diamond — найвищий доступний бал

Конкурентоспроможність у кодуванні: 80,6% на SWE-bench скорочує розрив із Claude

Мультимодальна перевага: нативна обробка відео/аудіо, з якою Claude та GPT не можуть зрівнятися

Статус Preview: ще не GA — очікуйте покращень до загальної доступності

Будуєте з ШІ? Y Build інтегрується з вашими улюбленими інструментами ШІ для розробки, а потім бере на себе розгортання, відео продукту Demo Cut, ШІ-SEO та аналітику — повний стек від коду до зростання. Почати безкоштовно.

Джерела:

TL;DR

Google випустила Gemini 3.1 Pro (preview) 19 лютого 2026 року. Ключові показники:

ARC-AGI-2: 77,1% — більш ніж удвічі перевищує Gemini 3 Pro (31,1%), перевершує Opus 4.6 (68,8%) та GPT-5.2 (52,9%)
GPQA Diamond: 94,3% — лідирує серед усіх моделей у наукових завданнях магістерського рівня
SWE-bench: 80,6% — відповідає Opus 4.6 (80,8%) у кодуванні
Ціна: $2/$12 за 1 млн токенів — найдешевша передова модель
Контекст 1 млн токенів — без змін порівняно з Gemini 3 Pro
Лідирує в 13 з 16 бенчмарків, оцінених Google
Доступно вже зараз у режимі preview: AI Studio, Vertex AI, Gemini CLI, додаток Gemini

Що анонсувала Google

Повний розбір бенчмарків

Де Gemini 3.1 Pro лідирує (13 з 16 бенчмарків)

Бенчмарк	Що тестує	Gemini 3.1 Pro	Найкращий конкурент
ARC-AGI-2	Нові міркування	77,1%	Opus 4.6: 68,8%
GPQA Diamond	Наука (магістерський рівень)	94,3%	GPT-5.2: 92,4%
BrowseComp	Агентський вебпошук	85,9%	Opus 4.6: 84,0%
Terminal-Bench 2.0	Кодування в терміналі	68,5%	Opus 4.6: 65,4%
APEX-Agents	Можливості агентів	33,5%	Opus 4.6: 29,8%
MCP Atlas	Використання інструментів	69,2%	—
t2-bench Telecom	Спеціалізована область	99,3%	—
SWE-bench Verified	Кодування	80,6%	Opus 4.6: 80,8%
MRCR v2	Довгий контекст	84,9%	Sonnet 4.6: 84,9% (нічия)

Де конкуренти все ще перемагають

Бенчмарк	Що тестує	Переможець	Gemini 3.1 Pro
GDPval-AA (Elo)	Офісні завдання	Sonnet 4.6: 1633	Не розголошується
Terminal-Bench 2.0	Складне кодування в терміналі	GPT-5.3-Codex: 77,3%	68,5%
SWE-Bench Pro	Просунуте кодування	GPT-5.3-Codex: 56,8%	Не розголошується
OSWorld	Використання комп'ютера	Sonnet 4.6: 72,5%	Не тестувалося

Стрибок у логічному міркуванні в контексті

Модель	ARC-AGI-2	Дата
Gemini 3 Pro	31,1%	Листопад 2025
GPT-5.2	52,9%	Грудень 2025
Claude Opus 4.6	68,8%	Лютий 2026
Gemini 3.1 Pro	77,1%	Лютий 2026

Що змінилося порівняно з Gemini 3 Pro

1. Інтеграція Deep Think

2. Кардинально кращі міркування

Цифри говорять самі за себе:

Бенчмарк	Gemini 3 Pro	Gemini 3.1 Pro	Покращення
ARC-AGI-2	31,1%	77,1%	+148%
GPQA Diamond	~88%	94,3%	+7%
APEX-Agents	18,4%	33,5%	+82%

3. Краща продуктивність агентів

4. Збереження мультимодальних переваг

Ціноутворення

Ціна така ж, як у Gemini 3 Pro — безкоштовне оновлення:

Розмір контексту	Вхідні (за 1 млн токенів)	Вихідні (за 1 млн токенів)
≤200K токенів	$2.00	$12.00
>200K токенів	$4.00	$18.00

Порівняння з конкурентами

Модель	Вхідні	Вихідні	Відносна вартість
Gemini 3.1 Pro	$2.00	$12.00	1x
Claude Sonnet 4.6	$3.00	$15.00	1,5x
GPT-5.2	$5.00	$15.00	2,0x (input)
Claude Opus 4.6	$15.00	$75.00	7,5x

Gemini 3.1 Pro — найдешевша передова модель: на 33% дешевша за Sonnet 4.6 на вхідних токенах та на 20% дешевша на вихідних.

Вартість за сесію (100K вхід + 20K вихід)

Модель	Вартість
Gemini 3.1 Pro	$0.44
Claude Sonnet 4.6	$0.60
GPT-5.2	$0.80
Claude Opus 4.6	$3.00

Додаткова оптимізація витрат:

Пакетний режим (Batch mode): знижка 50% ($0.22/сесія)

Кешування контексту: читання кешованих вхідних даних коштує 10% від базової ціни

Доступність

Де використовувати

Платформа	Статус	ID моделі
Gemini App (для споживачів)	Впроваджується	Обирається автоматично
Google AI Studio	Доступно зараз	`gemini-3.1-pro-preview`
Vertex AI	Доступно зараз	`gemini-3.1-pro-preview`
Gemini API	Доступно зараз	`gemini-3.1-pro-preview`
Gemini CLI	Доступно зараз	`gemini-3.1-pro-preview`
Antigravity	Доступно зараз	Обирається автоматично
Android Studio	Доступно зараз	Обирається автоматично
GitHub Copilot	Public preview	Можна обрати
NotebookLM	Підписники Pro/Ultra	Обирається автоматично

Швидкий старт з API

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Ендпоінт для кастомних інструментів

Google також запустила спеціалізований ендпоінт для кращої продуктивності інструментів:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Що це означає

Гонка міркувань набирає обертів

Три передові моделі випущено за 13 днів:

6 лютого: Claude Opus 4.6 (Anthropic)

17 лютого: Claude Sonnet 4.6 (Anthropic)

19 лютого: Gemini 3.1 Pro (Google)

Найкращі у своєму класі міркування за бюджетною ціною

Паритет у кодуванні

Відсутня ланка: Використання комп'ютера

Для розробників, які створюють продукти

Практичні наслідки:

Найдешевші міркування: $0.44/сесія проти $0.60 (Sonnet) та $0.80 (GPT-5.2)

Найкраща для наукових/аналітичних завдань: 94,3% на GPQA Diamond — найвищий доступний бал

Конкурентоспроможність у кодуванні: 80,6% на SWE-bench скорочує розрив із Claude

Мультимодальна перевага: нативна обробка відео/аудіо, з якою Claude та GPT не можуть зрівнятися

Статус Preview: ще не GA — очікуйте покращень до загальної доступності

Джерела: