Gemini 3.1 Pro: Пояснення стрибка Google у логічному міркуванні
Google випустила Gemini 3.1 Pro 19 лютого 2026 року — модель набрала 77,1% у тесті ARC-AGI-2, що вдвічі більше за Gemini 3 Pro. Повний розбір бенчмарків, ціни ($2/$12 за 1 млн токенів), доступність та що це означає для розробників.
TL;DR
Google випустила Gemini 3.1 Pro (preview) 19 лютого 2026 року. Ключові показники:
- ARC-AGI-2: 77,1% — більш ніж удвічі перевищує Gemini 3 Pro (31,1%), перевершує Opus 4.6 (68,8%) та GPT-5.2 (52,9%)
- GPQA Diamond: 94,3% — лідирує серед усіх моделей у наукових завданнях магістерського рівня
- SWE-bench: 80,6% — відповідає Opus 4.6 (80,8%) у кодуванні
- Ціна: $2/$12 за 1 млн токенів — найдешевша передова модель
- Контекст 1 млн токенів — без змін порівняно з Gemini 3 Pro
- Лідирує в 13 з 16 бенчмарків, оцінених Google
- Доступно вже зараз у режимі preview: AI Studio, Vertex AI, Gemini CLI, додаток Gemini
Що анонсувала Google
19 лютого 2026 року Google випустила Gemini 3.1 Pro — перше оновлення «.1» у версіях їхніх моделей. Вона базується на Gemini 3 Pro (листопад 2025 року), інтегруючи методи з серії Gemini 3 Deep Think у доступнішу та швидшу модель.
У блозі Google модель описується як розроблена для «завдань, де простої відповіді недостатньо» — складних багатоетапних міркувань, синтезу даних та агентських робочих процесів.
Головний показник: 77,1% у ARC-AGI-2, бенчмарку для нових абстрактних міркувань. Це більш ніж удвічі перевищує 31,1% у Gemini 3 Pro і значно випереджає як Opus 4.6 (68,8%), так і GPT-5.2 (52,9%). VentureBeat називає її «Deep Think Mini з регульованим рівнем міркувань за запитом».
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Повний розбір бенчмарків
Де Gemini 3.1 Pro лідирує (13 з 16 бенчмарків)
| Бенчмарк | Що тестує | Gemini 3.1 Pro | Найкращий конкурент |
|---|---|---|---|
| ARC-AGI-2 | Нові міркування | 77,1% | Opus 4.6: 68,8% |
| GPQA Diamond | Наука (магістерський рівень) | 94,3% | GPT-5.2: 92,4% |
| BrowseComp | Агентський вебпошук | 85,9% | Opus 4.6: 84,0% |
| Terminal-Bench 2.0 | Кодування в терміналі | 68,5% | Opus 4.6: 65,4% |
| APEX-Agents | Можливості агентів | 33,5% | Opus 4.6: 29,8% |
| MCP Atlas | Використання інструментів | 69,2% | — |
| t2-bench Telecom | Спеціалізована область | 99,3% | — |
| SWE-bench Verified | Кодування | 80,6% | Opus 4.6: 80,8% |
| MRCR v2 | Довгий контекст | 84,9% | Sonnet 4.6: 84,9% (нічия) |
Де конкуренти все ще перемагають
| Бенчмарк | Що тестує | Переможець | Gemini 3.1 Pro |
|---|---|---|---|
| GDPval-AA (Elo) | Офісні завдання | Sonnet 4.6: 1633 | Не розголошується |
| Terminal-Bench 2.0 | Складне кодування в терміналі | GPT-5.3-Codex: 77,3% | 68,5% |
| SWE-Bench Pro | Просунуте кодування | GPT-5.3-Codex: 56,8% | Не розголошується |
| OSWorld | Використання комп'ютера | Sonnet 4.6: 72,5% | Не тестувалося |
Стрибок у логічному міркуванні в контексті
ARC-AGI-2 вимірює здатність моделі вирішувати завдання, яких вона ніколи раніше не бачила — чисте абстрактне мислення, а не зіставлення шаблонів із навчальних даних. Ось як швидко покращувалася Gemini:
| Модель | ARC-AGI-2 | Дата |
|---|---|---|
| Gemini 3 Pro | 31,1% | Листопад 2025 |
| GPT-5.2 | 52,9% | Грудень 2025 |
| Claude Opus 4.6 | 68,8% | Лютий 2026 |
| Gemini 3.1 Pro | 77,1% | Лютий 2026 |
Gemini 3.1 Pro стрибнула з 31,1% до 77,1% за одну версію — покращення на 148%. Це стало можливим завдяки інтеграції методів розширеного мислення Deep Think у базову модель.
Що змінилося порівняно з Gemini 3 Pro
1. Інтеграція Deep Think
Gemini 3 Deep Think була окремою, повільнішою моделлю, оптимізованою для тривалих міркувань. Gemini 3.1 Pro впроваджує ці методи в стандартну модель із можливістю регулювання глибини міркувань. Ви отримуєте рівень міркувань Deep Think без затримок Deep Think для більшості завдань.
2. Кардинально кращі міркування
Цифри говорять самі за себе:
| Бенчмарк | Gemini 3 Pro | Gemini 3.1 Pro | Покращення |
|---|---|---|---|
| ARC-AGI-2 | 31,1% | 77,1% | +148% |
| GPQA Diamond | ~88% | 94,3% | +7% |
| APEX-Agents | 18,4% | 33,5% | +82% |
3. Краща продуктивність агентів
Показники APEX-Agents (33,5%) та MCP Atlas (69,2%) свідчать про те, що Gemini 3.1 Pro значно здатніша як автономний агент — використання інструментів, багатоетапне планування та самовиправлення були покращені.
4. Збереження мультимодальних переваг
Gemini 3.1 Pro зберігає ключову перевагу Gemini: нативну мультимодальну обробку тексту, зображень, аудіо та відео в межах одного контексту. Жодна інша передова модель не пропонує такої широти можливостей за цією ціною.
Ціноутворення
Ціна така ж, як у Gemini 3 Pro — безкоштовне оновлення:
| Розмір контексту | Вхідні (за 1 млн токенів) | Вихідні (за 1 млн токенів) |
|---|---|---|
| ≤200K токенів | $2.00 | $12.00 |
| >200K токенів | $4.00 | $18.00 |
Порівняння з конкурентами
| Модель | Вхідні | Вихідні | Відносна вартість |
|---|---|---|---|
| Gemini 3.1 Pro | $2.00 | $12.00 | 1x |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 1,5x |
| GPT-5.2 | $5.00 | $15.00 | 2,0x (input) |
| Claude Opus 4.6 | $15.00 | $75.00 | 7,5x |
Gemini 3.1 Pro — найдешевша передова модель: на 33% дешевша за Sonnet 4.6 на вхідних токенах та на 20% дешевша на вихідних.
Вартість за сесію (100K вхід + 20K вихід)
| Модель | Вартість |
|---|---|
| Gemini 3.1 Pro | $0.44 |
| Claude Sonnet 4.6 | $0.60 |
| GPT-5.2 | $0.80 |
| Claude Opus 4.6 | $3.00 |
Додаткова оптимізація витрат:
- Пакетний режим (Batch mode): знижка 50% ($0.22/сесія)
- Кешування контексту: читання кешованих вхідних даних коштує 10% від базової ціни
Доступність
Де використовувати
| Платформа | Статус | ID моделі |
|---|---|---|
| Gemini App (для споживачів) | Впроваджується | Обирається автоматично |
| Google AI Studio | Доступно зараз | gemini-3.1-pro-preview |
| Vertex AI | Доступно зараз | gemini-3.1-pro-preview |
| Gemini API | Доступно зараз | gemini-3.1-pro-preview |
| Gemini CLI | Доступно зараз | gemini-3.1-pro-preview |
| Antigravity | Доступно зараз | Обирається автоматично |
| Android Studio | Доступно зараз | Обирається автоматично |
| GitHub Copilot | Public preview | Можна обрати |
| NotebookLM | Підписники Pro/Ultra | Обирається автоматично |
Швидкий старт з API
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")
response = model.generate_content("Your prompt here")
print(response.text)
Ендпоінт для кастомних інструментів
Google також запустила спеціалізований ендпоінт для кращої продуктивності інструментів:
model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")
Використовуйте цей ендпоінт під час створення агентів, які значною мірою покладаються на виклик функцій та використання інструментів.
Що це означає
Гонка міркувань набирає обертів
Три передові моделі випущено за 13 днів:
- 6 лютого: Claude Opus 4.6 (Anthropic)
- 17 лютого: Claude Sonnet 4.6 (Anthropic)
- 19 лютого: Gemini 3.1 Pro (Google)
Кожна заявляє про лідерство в різних сферах. Ландшафт моделей фрагментується — жодна модель більше не домінує в усьому.
Найкращі у своєму класі міркування за бюджетною ціною
Результат Gemini 3.1 Pro у 77,1% на ARC-AGI-2 — це найвищий доступний бал за міркування за найнижчою ціною ($2/$12). Для завдань, що потребують вирішення нових проблем, абстрактного мислення або наукового аналізу, це очевидний вибір.
Паритет у кодуванні
З результатом 80,6% на SWE-bench (проти 80,8% у Opus 4.6 і 79,6% у Sonnet 4.6), Gemini 3.1 Pro вперше стає конкурентоспроможною в кодуванні. Попередні моделі Gemini значно поступалися Claude у цьому бенчмарку.
Відсутня ланка: Використання комп'ютера
Gemini 3.1 Pro не тестувалася на OSWorld (використання комп'ютера). Claude Sonnet 4.6 лідирує з результатом 72,5% у цій категорії. Якщо ваш робочий процес включає автоматизацію браузера, заповнення форм або керування робочим столом, Claude залишається єдиним життєздатним варіантом.
Для розробників, які створюють продукти
Практичні наслідки:
- Найдешевші міркування: $0.44/сесія проти $0.60 (Sonnet) та $0.80 (GPT-5.2)
- Найкраща для наукових/аналітичних завдань: 94,3% на GPQA Diamond — найвищий доступний бал
- Конкурентоспроможність у кодуванні: 80,6% на SWE-bench скорочує розрив із Claude
- Мультимодальна перевага: нативна обробка відео/аудіо, з якою Claude та GPT не можуть зрівнятися
- Статус Preview: ще не GA — очікуйте покращень до загальної доступності
Будуєте з ШІ? Y Build інтегрується з вашими улюбленими інструментами ШІ для розробки, а потім бере на себе розгортання, відео продукту Demo Cut, ШІ-SEO та аналітику — повний стек від коду до зростання. Почати безкоштовно.
Джерела:
- Google Blog: Gemini 3.1 Pro announcement
- Google DeepMind: Gemini 3.1 Pro Model Card
- 9to5Google: Gemini 3.1 Pro for complex problem-solving
- VentureBeat: Gemini 3.1 Pro first impressions
- MarkTechPost: Gemini 3.1 Pro 77.1% ARC-AGI-2
- OfficeChai: Gemini 3.1 Pro Benchmarks
- GitHub Blog: Gemini 3.1 Pro in GitHub Copilot
- The Decoder: Gemini 3.1 Pro reasoning
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.