Gemini 3.1 Pro: Google's Reasoning Leap Explained

TL;DR

Google выпустила Gemini 3.1 Pro (preview) 19 февраля 2026 года. Ключевые цифры:

ARC-AGI-2: 77,1% — более чем в два раза выше, чем у Gemini 3 Pro (31,1%), обходит Opus 4.6 (68,8%) и GPT-5.2 (52,9%)
GPQA Diamond: 94,3% — лидирует среди всех моделей в тестах по научным дисциплинам на уровне выпускников вузов
SWE-bench: 80,6% — соответствует уровню Opus 4.6 (80,8%) в программировании
Цена: $2/$12 за 1 млн токенов — самая дешевая модель флагманского уровня (frontier model)
Контекстное окно 1 млн токенов — осталось неизменным по сравнению с Gemini 3 Pro
Лидирует в 13 из 16 бенчмарков, оцененных Google
Доступно прямо сейчас в режиме превью: AI Studio, Vertex AI, Gemini CLI, приложение Gemini

Что анонсировала Google

19 февраля 2026 года Google выпустила Gemini 3.1 Pro — первое обновление с шагом «.1» в их системе версионирования моделей. Она базируется на Gemini 3 Pro (ноябрь 2025 года), интегрируя методы из серии Gemini 3 Deep Think в более доступную и быструю модель.

В блоге Google модель описывается как предназначенная для «задач, где простого ответа недостаточно» — сложных многошаговых рассуждений, синтеза данных и агентных рабочих процессов.

Главный показатель: 77,1% в тесте ARC-AGI-2, бенчмарке для проверки способности к новым абстрактным рассуждениям. Это более чем в два раза превышает результат Gemini 3 Pro (31,1%) и значительно опережает как Opus 4.6 (68,8%), так и GPT-5.2 (52,9%). Издание VentureBeat называет её «версией Deep Think Mini с настраиваемой глубиной рассуждений по запросу».

Полный разбор бенчмарков

Где лидирует Gemini 3.1 Pro (13 из 16 бенчмарков)

Бенчмарк	Что тестирует	Gemini 3.1 Pro	Лучший конкурент
ARC-AGI-2	Новые рассуждения	77,1%	Opus 4.6: 68,8%
GPQA Diamond	Наука (уровень магистратуры)	94,3%	GPT-5.2: 92,4%
BrowseComp	Агентный веб-поиск	85,9%	Opus 4.6: 84,0%
Terminal-Bench 2.0	Программирование в терминале	68,5%	Opus 4.6: 65,4%
APEX-Agents	Возможности агентов	33,5%	Opus 4.6: 29.8%
MCP Atlas	Использование инструментов	69,2%	—
t2-bench Telecom	Предметная область	99,3%	—
SWE-bench Verified	Программирование	80,6%	Opus 4.6: 80,8%
MRCR v2	Длинный контекст	84,9%	Sonnet 4.6: 84,9% (ничья)

Где конкуренты все еще выигрывают

Бенчмарк	Что тестирует	Победитель	Gemini 3.1 Pro
GDPval-AA (Elo)	Офисные задачи	Sonnet 4.6: 1633	Не разглашается
Terminal-Bench 2.0	Сложное программирование в терминале	GPT-5.3-Codex: 77,3%	68,5%
SWE-Bench Pro	Продвинутое программирование	GPT-5.3-Codex: 56,8%	Не разглашается
OSWorld	Использование компьютера	Sonnet 4.6: 72,5%	Не тестировалось

Скачок в рассуждениях в контексте

ARC-AGI-2 измеряет способность модели решать задачи, которые она никогда раньше не видела — это чистые абстрактные рассуждения, а не сопоставление с шаблонами из обучающих данных. Вот как быстро прогрессировала Gemini:

Модель	ARC-AGI-2	Дата
Gemini 3 Pro	31,1%	Ноябрь 2025
GPT-5.2	52,9%	Декабрь 2025
Claude Opus 4.6	68,8%	Февраль 2026
Gemini 3.1 Pro	77,1%	Февраль 2026

Gemini 3.1 Pro совершила скачок с 31,1% до 77,1% всего за одну версию — улучшение на 148%. Это достигнуто за счет интеграции методов расширенных рассуждений Deep Think в базовую модель.

Что изменилось по сравнению с Gemini 3 Pro

1. Интеграция Deep Think

Gemini 3 Deep Think была отдельной, более медленной моделью, оптимизированной для длительных рассуждений. В Gemini 3.1 Pro эти методы встроены непосредственно в стандартную модель с возможностью настройки глубины рассуждений. Вы получаете уровень логики Deep Think без характерных для неё задержек в большинстве задач.

2. Кардинально лучшие рассуждения

Цифры говорят сами за себя:

Бенчмарк	Gemini 3 Pro	Gemini 3.1 Pro	Улучшение
ARC-AGI-2	31,1%	77,1%	+148%
GPQA Diamond	~88%	94,3%	+7%
APEX-Agents	18,4%	33,5%	+82%

3. Улучшенная работа агентов

Показатели APEX-Agents (33,5%) и MCP Atlas (69,2%) демонстрируют, что Gemini 3.1 Pro значительно эффективнее в качестве автономного агента — использование инструментов, многошаговое планирование и самокоррекция были улучшены.

4. Сохранение преимуществ мультимодальности

Gemini 3.1 Pro сохраняет главное преимущество Gemini: нативную мультимодальную обработку текста, изображений, аудио и видео в рамках одного контекста. Ни одна другая флагманская модель не предлагает такого охвата по этой цене.

Цены

Та же цена, что и у Gemini 3 Pro — бесплатное обновление:

Размер контекста	Вход (за 1 млн токенов)	Выход (за 1 млн токенов)
≤200K токенов	$2,00	$12,00
>200K токенов	$4,00	$18,00

Сравнение с конкурентами

Модель	Вход	Выход	Относительная стоимость
Gemini 3.1 Pro	$2,00	$12,00	1x
Claude Sonnet 4.6	$3,00	$15,00	1,5x
GPT-5.2	$5,00	$15,00	2,0x (вход)
Claude Opus 4.6	$15,00	$75,00	7,5x

Gemini 3.1 Pro — самая дешевая модель frontier-класса: на 33% дешевле Sonnet 4.6 на входе и на 20% дешевле на выходе.

Стоимость сессии (100K вход + 20K выход)

Модель	Стоимость
Gemini 3.1 Pro	$0,44
Claude Sonnet 4.6	$0,60
GPT-5.2	$0,80
Claude Opus 4.6	$3,00

Дополнительная оптимизация затрат:

Пакетный режим (Batch mode): скидка 50% ($0,22 за сессию)

Кэширование контекста: чтение закэшированных входных данных стоит 10% от базовой цены

Доступность

Где использовать

Платформа	Статус	ID модели
Приложение Gemini (для пользователей)	Развертывается	Выбирается автоматически
Google AI Studio	Доступно сейчас	`gemini-3.1-pro-preview`
Vertex AI	Доступно сейчас	`gemini-3.1-pro-preview`
Gemini API	Доступно сейчас	`gemini-3.1-pro-preview`
Gemini CLI	Доступно сейчас	`gemini-3.1-pro-preview`
Antigravity	Доступно сейчас	Выбирается автоматически
Android Studio	Доступно сейчас	Выбирается автоматически
GitHub Copilot	Публичное превью	Можно выбрать
NotebookLM	Подписчики Pro/Ultra	Выбирается автоматически

Быстрый старт через API

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Эндпоинт для кастомных инструментов

Google также запустила специализированный эндпоинт для лучшей работы инструментов:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Используйте этот эндпоинт при создании агентов, которые сильно полагаются на вызов функций (function calling) и использование инструментов.

Что это значит

Гонка рассуждений накаляется

За 13 дней были выпущены три флагманские модели:

6 февраля: Claude Opus 4.6 (Anthropic)

17 февраля: Claude Sonnet 4.6 (Anthropic)

19 февраля: Gemini 3.1 Pro (Google)

Каждая претендует на лидерство в разных областях. Ландшафт моделей фрагментируется — больше нет одной модели, которая доминирует во всем.

Лучшие в своем классе рассуждения по бюджетной цене

Результат Gemini 3.1 Pro в 77,1% на ARC-AGI-2 — это самый высокий показатель рассуждений, доступный на данный момент по самой низкой цене ($2/$12). Для задач, требующих нестандартного решения проблем, абстрактного мышления или научного анализа, это очевидный выбор.

Паритет в программировании

С результатом 80,6% на SWE-bench (против 80,8% у Opus 4.6 и 79,6% у Sonnet 4.6), Gemini 3.1 Pro впервые стала конкурентоспособной в программировании. Предыдущие модели Gemini значительно отставали от Claude в этом бенчмарке.

Недостающее звено: использование компьютера

Gemini 3.1 Pro не тестировалась в OSWorld (использование компьютера). В этой категории лидирует Claude Sonnet 4.6 с результатом 72,5%. Если ваш рабочий процесс включает автоматизацию браузера, заполнение форм или управление рабочим столом, Claude остается единственным жизнеспособным вариантом.

Для разработчиков, создающих продукты

Практические выводы:

Самые дешевые рассуждения: $0,44 за сессию против $0,60 (Sonnet) и $0,80 (GPT-5.2)

Лучшая для научных и аналитических задач: 94,3% на GPQA Diamond — самый высокий доступный балл

Конкурентоспособность в кодинге: 80,6% на SWE-bench сокращает разрыв с Claude

Мультимодальное преимущество: нативная обработка видео и аудио, с которой Claude и GPT пока не сравнятся

Статус превью: еще не GA (General Availability) — ожидайте улучшений до официального релиза

Создаете продукты с ИИ? Y Build интегрируется с вашими любимыми инструментами ИИ для разработки, а затем берет на себя развертывание, создание видеороликов Demo Cut, AI SEO и аналитику — полный цикл от кода до роста. Начните бесплатно.

Источники:

TL;DR

Google выпустила Gemini 3.1 Pro (preview) 19 февраля 2026 года. Ключевые цифры:

ARC-AGI-2: 77,1% — более чем в два раза выше, чем у Gemini 3 Pro (31,1%), обходит Opus 4.6 (68,8%) и GPT-5.2 (52,9%)
GPQA Diamond: 94,3% — лидирует среди всех моделей в тестах по научным дисциплинам на уровне выпускников вузов
SWE-bench: 80,6% — соответствует уровню Opus 4.6 (80,8%) в программировании
Цена: $2/$12 за 1 млн токенов — самая дешевая модель флагманского уровня (frontier model)
Контекстное окно 1 млн токенов — осталось неизменным по сравнению с Gemini 3 Pro
Лидирует в 13 из 16 бенчмарков, оцененных Google
Доступно прямо сейчас в режиме превью: AI Studio, Vertex AI, Gemini CLI, приложение Gemini

Что анонсировала Google

Полный разбор бенчмарков

Где лидирует Gemini 3.1 Pro (13 из 16 бенчмарков)

Бенчмарк	Что тестирует	Gemini 3.1 Pro	Лучший конкурент
ARC-AGI-2	Новые рассуждения	77,1%	Opus 4.6: 68,8%
GPQA Diamond	Наука (уровень магистратуры)	94,3%	GPT-5.2: 92,4%
BrowseComp	Агентный веб-поиск	85,9%	Opus 4.6: 84,0%
Terminal-Bench 2.0	Программирование в терминале	68,5%	Opus 4.6: 65,4%
APEX-Agents	Возможности агентов	33,5%	Opus 4.6: 29.8%
MCP Atlas	Использование инструментов	69,2%	—
t2-bench Telecom	Предметная область	99,3%	—
SWE-bench Verified	Программирование	80,6%	Opus 4.6: 80,8%
MRCR v2	Длинный контекст	84,9%	Sonnet 4.6: 84,9% (ничья)

Где конкуренты все еще выигрывают

Бенчмарк	Что тестирует	Победитель	Gemini 3.1 Pro
GDPval-AA (Elo)	Офисные задачи	Sonnet 4.6: 1633	Не разглашается
Terminal-Bench 2.0	Сложное программирование в терминале	GPT-5.3-Codex: 77,3%	68,5%
SWE-Bench Pro	Продвинутое программирование	GPT-5.3-Codex: 56,8%	Не разглашается
OSWorld	Использование компьютера	Sonnet 4.6: 72,5%	Не тестировалось

Скачок в рассуждениях в контексте

Модель	ARC-AGI-2	Дата
Gemini 3 Pro	31,1%	Ноябрь 2025
GPT-5.2	52,9%	Декабрь 2025
Claude Opus 4.6	68,8%	Февраль 2026
Gemini 3.1 Pro	77,1%	Февраль 2026

Что изменилось по сравнению с Gemini 3 Pro

1. Интеграция Deep Think

2. Кардинально лучшие рассуждения

Цифры говорят сами за себя:

Бенчмарк	Gemini 3 Pro	Gemini 3.1 Pro	Улучшение
ARC-AGI-2	31,1%	77,1%	+148%
GPQA Diamond	~88%	94,3%	+7%
APEX-Agents	18,4%	33,5%	+82%

3. Улучшенная работа агентов

4. Сохранение преимуществ мультимодальности

Цены

Та же цена, что и у Gemini 3 Pro — бесплатное обновление:

Размер контекста	Вход (за 1 млн токенов)	Выход (за 1 млн токенов)
≤200K токенов	$2,00	$12,00
>200K токенов	$4,00	$18,00

Сравнение с конкурентами

Модель	Вход	Выход	Относительная стоимость
Gemini 3.1 Pro	$2,00	$12,00	1x
Claude Sonnet 4.6	$3,00	$15,00	1,5x
GPT-5.2	$5,00	$15,00	2,0x (вход)
Claude Opus 4.6	$15,00	$75,00	7,5x

Gemini 3.1 Pro — самая дешевая модель frontier-класса: на 33% дешевле Sonnet 4.6 на входе и на 20% дешевле на выходе.

Стоимость сессии (100K вход + 20K выход)

Модель	Стоимость
Gemini 3.1 Pro	$0,44
Claude Sonnet 4.6	$0,60
GPT-5.2	$0,80
Claude Opus 4.6	$3,00

Дополнительная оптимизация затрат:

Пакетный режим (Batch mode): скидка 50% ($0,22 за сессию)

Кэширование контекста: чтение закэшированных входных данных стоит 10% от базовой цены

Доступность

Где использовать

Платформа	Статус	ID модели
Приложение Gemini (для пользователей)	Развертывается	Выбирается автоматически
Google AI Studio	Доступно сейчас	`gemini-3.1-pro-preview`
Vertex AI	Доступно сейчас	`gemini-3.1-pro-preview`
Gemini API	Доступно сейчас	`gemini-3.1-pro-preview`
Gemini CLI	Доступно сейчас	`gemini-3.1-pro-preview`
Antigravity	Доступно сейчас	Выбирается автоматически
Android Studio	Доступно сейчас	Выбирается автоматически
GitHub Copilot	Публичное превью	Можно выбрать
NotebookLM	Подписчики Pro/Ultra	Выбирается автоматически

Быстрый старт через API

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Эндпоинт для кастомных инструментов

Google также запустила специализированный эндпоинт для лучшей работы инструментов:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Что это значит

Гонка рассуждений накаляется

За 13 дней были выпущены три флагманские модели:

6 февраля: Claude Opus 4.6 (Anthropic)

17 февраля: Claude Sonnet 4.6 (Anthropic)

19 февраля: Gemini 3.1 Pro (Google)

Лучшие в своем классе рассуждения по бюджетной цене

Паритет в программировании

Недостающее звено: использование компьютера

Для разработчиков, создающих продукты

Практические выводы:

Самые дешевые рассуждения: $0,44 за сессию против $0,60 (Sonnet) и $0,80 (GPT-5.2)

Лучшая для научных и аналитических задач: 94,3% на GPQA Diamond — самый высокий доступный балл

Конкурентоспособность в кодинге: 80,6% на SWE-bench сокращает разрыв с Claude

Мультимодальное преимущество: нативная обработка видео и аудио, с которой Claude и GPT пока не сравнятся

Статус превью: еще не GA (General Availability) — ожидайте улучшений до официального релиза

Источники: