Gemini 3.1 Pro: Google's Reasoning Leap Explained
Google выпустила Gemini 3.1 Pro 19 февраля 2026 года — модель набрала 77,1% в тесте ARC-AGI-2, что более чем в два раза превышает показатели Gemini 3 Pro. Полный разбор бенчмарков, цены ($2/$12 за 1 млн токенов), доступность и значение для разработчиков.
TL;DR
Google выпустила Gemini 3.1 Pro (preview) 19 февраля 2026 года. Ключевые цифры:
- ARC-AGI-2: 77,1% — более чем в два раза выше, чем у Gemini 3 Pro (31,1%), обходит Opus 4.6 (68,8%) и GPT-5.2 (52,9%)
- GPQA Diamond: 94,3% — лидирует среди всех моделей в тестах по научным дисциплинам на уровне выпускников вузов
- SWE-bench: 80,6% — соответствует уровню Opus 4.6 (80,8%) в программировании
- Цена: $2/$12 за 1 млн токенов — самая дешевая модель флагманского уровня (frontier model)
- Контекстное окно 1 млн токенов — осталось неизменным по сравнению с Gemini 3 Pro
- Лидирует в 13 из 16 бенчмарков, оцененных Google
- Доступно прямо сейчас в режиме превью: AI Studio, Vertex AI, Gemini CLI, приложение Gemini
Что анонсировала Google
19 февраля 2026 года Google выпустила Gemini 3.1 Pro — первое обновление с шагом «.1» в их системе версионирования моделей. Она базируется на Gemini 3 Pro (ноябрь 2025 года), интегрируя методы из серии Gemini 3 Deep Think в более доступную и быструю модель.
В блоге Google модель описывается как предназначенная для «задач, где простого ответа недостаточно» — сложных многошаговых рассуждений, синтеза данных и агентных рабочих процессов.
Главный показатель: 77,1% в тесте ARC-AGI-2, бенчмарке для проверки способности к новым абстрактным рассуждениям. Это более чем в два раза превышает результат Gemini 3 Pro (31,1%) и значительно опережает как Opus 4.6 (68,8%), так и GPT-5.2 (52,9%). Издание VentureBeat называет её «версией Deep Think Mini с настраиваемой глубиной рассуждений по запросу».
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Полный разбор бенчмарков
Где лидирует Gemini 3.1 Pro (13 из 16 бенчмарков)
| Бенчмарк | Что тестирует | Gemini 3.1 Pro | Лучший конкурент |
|---|---|---|---|
| ARC-AGI-2 | Новые рассуждения | 77,1% | Opus 4.6: 68,8% |
| GPQA Diamond | Наука (уровень магистратуры) | 94,3% | GPT-5.2: 92,4% |
| BrowseComp | Агентный веб-поиск | 85,9% | Opus 4.6: 84,0% |
| Terminal-Bench 2.0 | Программирование в терминале | 68,5% | Opus 4.6: 65,4% |
| APEX-Agents | Возможности агентов | 33,5% | Opus 4.6: 29.8% |
| MCP Atlas | Использование инструментов | 69,2% | — |
| t2-bench Telecom | Предметная область | 99,3% | — |
| SWE-bench Verified | Программирование | 80,6% | Opus 4.6: 80,8% |
| MRCR v2 | Длинный контекст | 84,9% | Sonnet 4.6: 84,9% (ничья) |
Где конкуренты все еще выигрывают
| Бенчмарк | Что тестирует | Победитель | Gemini 3.1 Pro |
|---|---|---|---|
| GDPval-AA (Elo) | Офисные задачи | Sonnet 4.6: 1633 | Не разглашается |
| Terminal-Bench 2.0 | Сложное программирование в терминале | GPT-5.3-Codex: 77,3% | 68,5% |
| SWE-Bench Pro | Продвинутое программирование | GPT-5.3-Codex: 56,8% | Не разглашается |
| OSWorld | Использование компьютера | Sonnet 4.6: 72,5% | Не тестировалось |
Скачок в рассуждениях в контексте
ARC-AGI-2 измеряет способность модели решать задачи, которые она никогда раньше не видела — это чистые абстрактные рассуждения, а не сопоставление с шаблонами из обучающих данных. Вот как быстро прогрессировала Gemini:
| Модель | ARC-AGI-2 | Дата |
|---|---|---|
| Gemini 3 Pro | 31,1% | Ноябрь 2025 |
| GPT-5.2 | 52,9% | Декабрь 2025 |
| Claude Opus 4.6 | 68,8% | Февраль 2026 |
| Gemini 3.1 Pro | 77,1% | Февраль 2026 |
Gemini 3.1 Pro совершила скачок с 31,1% до 77,1% всего за одну версию — улучшение на 148%. Это достигнуто за счет интеграции методов расширенных рассуждений Deep Think в базовую модель.
Что изменилось по сравнению с Gemini 3 Pro
1. Интеграция Deep Think
Gemini 3 Deep Think была отдельной, более медленной моделью, оптимизированной для длительных рассуждений. В Gemini 3.1 Pro эти методы встроены непосредственно в стандартную модель с возможностью настройки глубины рассуждений. Вы получаете уровень логики Deep Think без характерных для неё задержек в большинстве задач.
2. Кардинально лучшие рассуждения
Цифры говорят сами за себя:
| Бенчмарк | Gemini 3 Pro | Gemini 3.1 Pro | Улучшение |
|---|---|---|---|
| ARC-AGI-2 | 31,1% | 77,1% | +148% |
| GPQA Diamond | ~88% | 94,3% | +7% |
| APEX-Agents | 18,4% | 33,5% | +82% |
3. Улучшенная работа агентов
Показатели APEX-Agents (33,5%) и MCP Atlas (69,2%) демонстрируют, что Gemini 3.1 Pro значительно эффективнее в качестве автономного агента — использование инструментов, многошаговое планирование и самокоррекция были улучшены.
4. Сохранение преимуществ мультимодальности
Gemini 3.1 Pro сохраняет главное преимущество Gemini: нативную мультимодальную обработку текста, изображений, аудио и видео в рамках одного контекста. Ни одна другая флагманская модель не предлагает такого охвата по этой цене.
Цены
Та же цена, что и у Gemini 3 Pro — бесплатное обновление:
| Размер контекста | Вход (за 1 млн токенов) | Выход (за 1 млн токенов) |
|---|---|---|
| ≤200K токенов | $2,00 | $12,00 |
| >200K токенов | $4,00 | $18,00 |
Сравнение с конкурентами
| Модель | Вход | Выход | Относительная стоимость |
|---|---|---|---|
| Gemini 3.1 Pro | $2,00 | $12,00 | 1x |
| Claude Sonnet 4.6 | $3,00 | $15,00 | 1,5x |
| GPT-5.2 | $5,00 | $15,00 | 2,0x (вход) |
| Claude Opus 4.6 | $15,00 | $75,00 | 7,5x |
Gemini 3.1 Pro — самая дешевая модель frontier-класса: на 33% дешевле Sonnet 4.6 на входе и на 20% дешевле на выходе.
Стоимость сессии (100K вход + 20K выход)
| Модель | Стоимость |
|---|---|
| Gemini 3.1 Pro | $0,44 |
| Claude Sonnet 4.6 | $0,60 |
| GPT-5.2 | $0,80 |
| Claude Opus 4.6 | $3,00 |
Дополнительная оптимизация затрат:
- Пакетный режим (Batch mode): скидка 50% ($0,22 за сессию)
- Кэширование контекста: чтение закэшированных входных данных стоит 10% от базовой цены
Доступность
Где использовать
| Платформа | Статус | ID модели |
|---|---|---|
| Приложение Gemini (для пользователей) | Развертывается | Выбирается автоматически |
| Google AI Studio | Доступно сейчас | gemini-3.1-pro-preview |
| Vertex AI | Доступно сейчас | gemini-3.1-pro-preview |
| Gemini API | Доступно сейчас | gemini-3.1-pro-preview |
| Gemini CLI | Доступно сейчас | gemini-3.1-pro-preview |
| Antigravity | Доступно сейчас | Выбирается автоматически |
| Android Studio | Доступно сейчас | Выбирается автоматически |
| GitHub Copilot | Публичное превью | Можно выбрать |
| NotebookLM | Подписчики Pro/Ultra | Выбирается автоматически |
Быстрый старт через API
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")
response = model.generate_content("Your prompt here")
print(response.text)
Эндпоинт для кастомных инструментов
Google также запустила специализированный эндпоинт для лучшей работы инструментов:
model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")
Используйте этот эндпоинт при создании агентов, которые сильно полагаются на вызов функций (function calling) и использование инструментов.
Что это значит
Гонка рассуждений накаляется
За 13 дней были выпущены три флагманские модели:
- 6 февраля: Claude Opus 4.6 (Anthropic)
- 17 февраля: Claude Sonnet 4.6 (Anthropic)
- 19 февраля: Gemini 3.1 Pro (Google)
Каждая претендует на лидерство в разных областях. Ландшафт моделей фрагментируется — больше нет одной модели, которая доминирует во всем.
Лучшие в своем классе рассуждения по бюджетной цене
Результат Gemini 3.1 Pro в 77,1% на ARC-AGI-2 — это самый высокий показатель рассуждений, доступный на данный момент по самой низкой цене ($2/$12). Для задач, требующих нестандартного решения проблем, абстрактного мышления или научного анализа, это очевидный выбор.
Паритет в программировании
С результатом 80,6% на SWE-bench (против 80,8% у Opus 4.6 и 79,6% у Sonnet 4.6), Gemini 3.1 Pro впервые стала конкурентоспособной в программировании. Предыдущие модели Gemini значительно отставали от Claude в этом бенчмарке.
Недостающее звено: использование компьютера
Gemini 3.1 Pro не тестировалась в OSWorld (использование компьютера). В этой категории лидирует Claude Sonnet 4.6 с результатом 72,5%. Если ваш рабочий процесс включает автоматизацию браузера, заполнение форм или управление рабочим столом, Claude остается единственным жизнеспособным вариантом.
Для разработчиков, создающих продукты
Практические выводы:
- Самые дешевые рассуждения: $0,44 за сессию против $0,60 (Sonnet) и $0,80 (GPT-5.2)
- Лучшая для научных и аналитических задач: 94,3% на GPQA Diamond — самый высокий доступный балл
- Конкурентоспособность в кодинге: 80,6% на SWE-bench сокращает разрыв с Claude
- Мультимодальное преимущество: нативная обработка видео и аудио, с которой Claude и GPT пока не сравнятся
- Статус превью: еще не GA (General Availability) — ожидайте улучшений до официального релиза
Создаете продукты с ИИ? Y Build интегрируется с вашими любимыми инструментами ИИ для разработки, а затем берет на себя развертывание, создание видеороликов Demo Cut, AI SEO и аналитику — полный цикл от кода до роста. Начните бесплатно.
Источники:
- Google Blog: Gemini 3.1 Pro announcement
- Google DeepMind: Gemini 3.1 Pro Model Card
- 9to5Google: Gemini 3.1 Pro for complex problem-solving
- VentureBeat: Gemini 3.1 Pro first impressions
- MarkTechPost: Gemini 3.1 Pro 77.1% ARC-AGI-2
- OfficeChai: Gemini 3.1 Pro Benchmarks
- GitHub Blog: Gemini 3.1 Pro in GitHub Copilot
- The Decoder: Gemini 3.1 Pro reasoning
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.