Gemini 3.1 Pro: El salto en razonamiento de Google explicado

TL;DR

Google lanzó Gemini 3.1 Pro (preview) el 19 de febrero de 2026. Las cifras clave:

ARC-AGI-2: 77.1% — más del doble que Gemini 3 Pro (31.1%), supera a Opus 4.6 (68.8%) y GPT-5.2 (52.9%)
GPQA Diamond: 94.3% — lidera todos los modelos en ciencias a nivel de posgrado
SWE-bench: 80.6% — iguala a Opus 4.6 (80.8%) en programación
Precio: $2/$12 por M de tokens — el modelo de frontera más barato
Contexto de 1M de tokens — sin cambios respecto a Gemini 3 Pro
Lidera en 13 de 16 benchmarks evaluados por Google
Disponible ahora en preview: AI Studio, Vertex AI, Gemini CLI, app de Gemini

Lo que Google anunció

El 19 de febrero de 2026, Google lanzó Gemini 3.1 Pro — el primer incremento ".1" en la versión de sus modelos. Se basa en Gemini 3 Pro (noviembre de 2025) integrando técnicas de la serie Gemini 3 Deep Think en un modelo más accesible y rápido.

El blog de Google lo describe como diseñado para "tareas donde una respuesta simple no es suficiente" — razonamiento complejo de múltiples pasos, síntesis de datos y flujos de trabajo agénticos.

La estadística principal: 77.1% en ARC-AGI-2, el benchmark para el razonamiento abstracto novedoso. Eso es más del doble del 31.1% de Gemini 3 Pro, y está significativamente por delante tanto de Opus 4.6 (68.8%) como de GPT-5.2 (52.9%). VentureBeat lo llama "un Deep Think Mini con razonamiento ajustable bajo demanda".

Desglose completo de benchmarks

Donde Gemini 3.1 Pro lidera (13 de 16 benchmarks)

Benchmark	Qué evalúa	Gemini 3.1 Pro	Mejor competidor
ARC-AGI-2	Razonamiento novedoso	77.1%	Opus 4.6: 68.8%
GPQA Diamond	Ciencias (posgrado)	94.3%	GPT-5.2: 92.4%
BrowseComp	Búsqueda web agéntica	85.9%	Opus 4.6: 84.0%
Terminal-Bench 2.0	Programación en terminal	68.5%	Opus 4.6: 65.4%
APEX-Agents	Capacidades de agentes	33.5%	Opus 4.6: 29.8%
MCP Atlas	Uso de herramientas	69.2%	—
t2-bench Telecom	Dominio específico	99.3%	—
SWE-bench Verified	Programación	80.6%	Opus 4.6: 80.8%
MRCR v2	Contexto largo	84.9%	Sonnet 4.6: 84.9% (empate)

Donde los competidores aún ganan

Benchmark	Qué evalúa	Ganador	Gemini 3.1 Pro
GDPval-AA (Elo)	Tareas de oficina	Sonnet 4.6: 1633	No revelado
Terminal-Bench 2.0	Programación pesada en terminal	GPT-5.3-Codex: 77.3%	68.5%
SWE-Bench Pro	Programación avanzada	GPT-5.3-Codex: 56.8%	No revelado
OSWorld	Uso de computadora	Sonnet 4.6: 72.5%	No evaluado

El salto en razonamiento en contexto

ARC-AGI-2 mide la capacidad de un modelo para resolver problemas que nunca ha visto antes — razonamiento abstracto puro, no coincidencia de patrones a partir de datos de entrenamiento. Así de rápido mejoró Gemini:

Modelo	ARC-AGI-2	Fecha
Gemini 3 Pro	31.1%	Nov 2025
GPT-5.2	52.9%	Dic 2025
Claude Opus 4.6	68.8%	Feb 2026
Gemini 3.1 Pro	77.1%	Feb 2026

Gemini 3.1 Pro saltó del 31.1% al 77.1% en una sola versión — una mejora del 148%. Esto proviene de la integración de las técnicas de razonamiento extendido de Deep Think en el modelo base.

Qué cambió vs. Gemini 3 Pro

1. Integración de Deep Think

Gemini 3 Deep Think era un modelo separado y más lento, optimizado para el razonamiento extendido. Gemini 3.1 Pro incorpora esas técnicas en el modelo estándar, con profundidad de razonamiento ajustable. Obtienes un razonamiento al nivel de Deep Think sin la latencia de Deep Think para la mayoría de las tareas.

2. Razonamiento drásticamente mejor

Los números hablan por sí solos:

Benchmark	Gemini 3 Pro	Gemini 3.1 Pro	Mejora
ARC-AGI-2	31.1%	77.1%	+148%
GPQA Diamond	~88%	94.3%	+7%
APEX-Agents	18.4%	33.5%	+82%

3. Mejor rendimiento agéntico

Las puntuaciones de APEX-Agents (33.5%) y MCP Atlas (69.2%) muestran que Gemini 3.1 Pro es significativamente más capaz como agente autónomo — el uso de herramientas, la planificación de múltiples pasos y la autocorrección han mejorado.

4. Fortaleza multimodal mantenida

Gemini 3.1 Pro conserva la ventaja principal de Gemini: procesamiento multimodal nativo de texto, imágenes, audio y video dentro de un solo contexto. Ningún otro modelo de frontera iguala esta amplitud a este precio.

Precios

Mismo precio que Gemini 3 Pro — una actualización gratuita:

Tamaño de contexto	Entrada (por M de tokens)	Salida (por M de tokens)
≤200K tokens	$2.00	$12.00
>200K tokens	$4.00	$18.00

Comparación con competidores

Modelo	Entrada	Salida	Costo relativo
Gemini 3.1 Pro	$2.00	$12.00	1x
Claude Sonnet 4.6	$3.00	$15.00	1.5x
GPT-5.2	$5.00	$15.00	2.0x (entrada)
Claude Opus 4.6	$15.00	$75.00	7.5x

Gemini 3.1 Pro es el modelo de frontera más barato — un 33% más económico que Sonnet 4.6 en entrada y un 20% más económico en salida.

Costo por sesión (100K entrada + 20K salida)

Modelo	Costo
Gemini 3.1 Pro	$0.44
Claude Sonnet 4.6	$0.60
GPT-5.2	$0.80
Claude Opus 4.6	$3.00

Optimización de costos adicional:

Modo Batch: 50% de descuento ($0.22/sesión)

Context caching: Las lecturas de entrada en caché cuestan el 10% del precio base

Disponibilidad

Dónde usarlo

Plataforma	Estado	ID del modelo
App de Gemini (consumidor)	Desplegándose	Seleccionado auto.
Google AI Studio	Disponible ahora	`gemini-3.1-pro-preview`
Vertex AI	Disponible ahora	`gemini-3.1-pro-preview`
Gemini API	Disponible ahora	`gemini-3.1-pro-preview`
Gemini CLI	Disponible ahora	`gemini-3.1-pro-preview`
Antigravity	Disponible ahora	Seleccionado auto.
Android Studio	Disponible ahora	Seleccionado auto.
GitHub Copilot	Public preview	Seleccionable
NotebookLM	Suscriptores Pro/Ultra	Seleccionado auto.

Inicio rápido de la API

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Endpoint de herramientas personalizadas (Custom Tools)

Google también lanzó un endpoint especializado para un mejor rendimiento de las herramientas:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Usa este endpoint cuando construyas agentes que dependan fuertemente del function calling y el uso de herramientas.

Qué significa esto

La carrera del razonamiento se calienta

Tres modelos de frontera lanzados en 13 días:

6 de feb: Claude Opus 4.6 (Anthropic)

17 de feb: Claude Sonnet 4.6 (Anthropic)

19 de feb: Gemini 3.1 Pro (Google)

Cada uno reclama el liderazgo en diferentes áreas. El panorama de los modelos se está fragmentando — ya ningún modelo único domina todo.

El mejor razonamiento de su clase a precios económicos

El 77.1% de Gemini 3.1 Pro en ARC-AGI-2 es la puntuación de razonamiento más alta disponible, al precio más bajo ($2/$12). Para tareas que requieren resolución de problemas novedosos, razonamiento abstracto o análisis científico, es la elección clara.

Paridad en programación

Con un 80.6% en SWE-bench (frente al 80.8% de Opus 4.6 y el 79.6% de Sonnet 4.6), Gemini 3.1 Pro es ahora competitivo en programación por primera vez. Los modelos Gemini anteriores iban significativamente a la zaga de Claude en este benchmark.

La pieza faltante: Uso de computadoras

Gemini 3.1 Pro no tiene benchmarks en OSWorld (uso de computadoras). Claude Sonnet 4.6 lidera con un 72.5% en esta capacidad. Si tu flujo de trabajo implica automatización del navegador, llenado de formularios o control del escritorio, Claude sigue siendo la única opción viable.

Para desarrolladores que construyen productos

Las implicaciones prácticas:

Razonamiento más barato: $0.44/sesión vs $0.60 (Sonnet) vs $0.80 (GPT-5.2)

El mejor para tareas científicas/analíticas: 94.3% en GPQA Diamond es la puntuación más alta disponible

Competitivo en programación: 80.6% en SWE-bench cierra la brecha con Claude

Ventaja multimodal: Procesamiento nativo de video/audio que Claude y GPT no igualan

Estado preview: Aún no es GA — se esperan mejoras antes de la disponibilidad general

¿Construyendo con IA? Y Build se integra con tus herramientas de IA preferidas para el desarrollo, luego se encarga del despliegue, videos de producto Demo Cut, AI SEO y analíticas — el stack completo desde el código hasta el crecimiento. Comienza gratis.

Fuentes:

TL;DR

Google lanzó Gemini 3.1 Pro (preview) el 19 de febrero de 2026. Las cifras clave:

ARC-AGI-2: 77.1% — más del doble que Gemini 3 Pro (31.1%), supera a Opus 4.6 (68.8%) y GPT-5.2 (52.9%)
GPQA Diamond: 94.3% — lidera todos los modelos en ciencias a nivel de posgrado
SWE-bench: 80.6% — iguala a Opus 4.6 (80.8%) en programación
Precio: $2/$12 por M de tokens — el modelo de frontera más barato
Contexto de 1M de tokens — sin cambios respecto a Gemini 3 Pro
Lidera en 13 de 16 benchmarks evaluados por Google
Disponible ahora en preview: AI Studio, Vertex AI, Gemini CLI, app de Gemini

Lo que Google anunció

Desglose completo de benchmarks

Donde Gemini 3.1 Pro lidera (13 de 16 benchmarks)

Benchmark	Qué evalúa	Gemini 3.1 Pro	Mejor competidor
ARC-AGI-2	Razonamiento novedoso	77.1%	Opus 4.6: 68.8%
GPQA Diamond	Ciencias (posgrado)	94.3%	GPT-5.2: 92.4%
BrowseComp	Búsqueda web agéntica	85.9%	Opus 4.6: 84.0%
Terminal-Bench 2.0	Programación en terminal	68.5%	Opus 4.6: 65.4%
APEX-Agents	Capacidades de agentes	33.5%	Opus 4.6: 29.8%
MCP Atlas	Uso de herramientas	69.2%	—
t2-bench Telecom	Dominio específico	99.3%	—
SWE-bench Verified	Programación	80.6%	Opus 4.6: 80.8%
MRCR v2	Contexto largo	84.9%	Sonnet 4.6: 84.9% (empate)

Donde los competidores aún ganan

Benchmark	Qué evalúa	Ganador	Gemini 3.1 Pro
GDPval-AA (Elo)	Tareas de oficina	Sonnet 4.6: 1633	No revelado
Terminal-Bench 2.0	Programación pesada en terminal	GPT-5.3-Codex: 77.3%	68.5%
SWE-Bench Pro	Programación avanzada	GPT-5.3-Codex: 56.8%	No revelado
OSWorld	Uso de computadora	Sonnet 4.6: 72.5%	No evaluado

El salto en razonamiento en contexto

Modelo	ARC-AGI-2	Fecha
Gemini 3 Pro	31.1%	Nov 2025
GPT-5.2	52.9%	Dic 2025
Claude Opus 4.6	68.8%	Feb 2026
Gemini 3.1 Pro	77.1%	Feb 2026

Gemini 3.1 Pro saltó del 31.1% al 77.1% en una sola versión — una mejora del 148%. Esto proviene de la integración de las técnicas de razonamiento extendido de Deep Think en el modelo base.

Qué cambió vs. Gemini 3 Pro

1. Integración de Deep Think

2. Razonamiento drásticamente mejor

Los números hablan por sí solos:

Benchmark	Gemini 3 Pro	Gemini 3.1 Pro	Mejora
ARC-AGI-2	31.1%	77.1%	+148%
GPQA Diamond	~88%	94.3%	+7%
APEX-Agents	18.4%	33.5%	+82%

3. Mejor rendimiento agéntico

4. Fortaleza multimodal mantenida

Precios

Mismo precio que Gemini 3 Pro — una actualización gratuita:

Tamaño de contexto	Entrada (por M de tokens)	Salida (por M de tokens)
≤200K tokens	$2.00	$12.00
>200K tokens	$4.00	$18.00

Comparación con competidores

Modelo	Entrada	Salida	Costo relativo
Gemini 3.1 Pro	$2.00	$12.00	1x
Claude Sonnet 4.6	$3.00	$15.00	1.5x
GPT-5.2	$5.00	$15.00	2.0x (entrada)
Claude Opus 4.6	$15.00	$75.00	7.5x

Gemini 3.1 Pro es el modelo de frontera más barato — un 33% más económico que Sonnet 4.6 en entrada y un 20% más económico en salida.

Costo por sesión (100K entrada + 20K salida)

Modelo	Costo
Gemini 3.1 Pro	$0.44
Claude Sonnet 4.6	$0.60
GPT-5.2	$0.80
Claude Opus 4.6	$3.00

Optimización de costos adicional:

Modo Batch: 50% de descuento ($0.22/sesión)

Context caching: Las lecturas de entrada en caché cuestan el 10% del precio base

Disponibilidad

Dónde usarlo

Plataforma	Estado	ID del modelo
App de Gemini (consumidor)	Desplegándose	Seleccionado auto.
Google AI Studio	Disponible ahora	`gemini-3.1-pro-preview`
Vertex AI	Disponible ahora	`gemini-3.1-pro-preview`
Gemini API	Disponible ahora	`gemini-3.1-pro-preview`
Gemini CLI	Disponible ahora	`gemini-3.1-pro-preview`
Antigravity	Disponible ahora	Seleccionado auto.
Android Studio	Disponible ahora	Seleccionado auto.
GitHub Copilot	Public preview	Seleccionable
NotebookLM	Suscriptores Pro/Ultra	Seleccionado auto.

Inicio rápido de la API

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Endpoint de herramientas personalizadas (Custom Tools)

Google también lanzó un endpoint especializado para un mejor rendimiento de las herramientas:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Usa este endpoint cuando construyas agentes que dependan fuertemente del function calling y el uso de herramientas.

Qué significa esto

La carrera del razonamiento se calienta

Tres modelos de frontera lanzados en 13 días:

6 de feb: Claude Opus 4.6 (Anthropic)

17 de feb: Claude Sonnet 4.6 (Anthropic)

19 de feb: Gemini 3.1 Pro (Google)

Cada uno reclama el liderazgo en diferentes áreas. El panorama de los modelos se está fragmentando — ya ningún modelo único domina todo.

El mejor razonamiento de su clase a precios económicos

Paridad en programación

La pieza faltante: Uso de computadoras

Para desarrolladores que construyen productos

Las implicaciones prácticas:

Razonamiento más barato: $0.44/sesión vs $0.60 (Sonnet) vs $0.80 (GPT-5.2)

El mejor para tareas científicas/analíticas: 94.3% en GPQA Diamond es la puntuación más alta disponible

Competitivo en programación: 80.6% en SWE-bench cierra la brecha con Claude

Ventaja multimodal: Procesamiento nativo de video/audio que Claude y GPT no igualan

Estado preview: Aún no es GA — se esperan mejoras antes de la disponibilidad general

Fuentes: