Gemini 3.1 Pro: El salto en razonamiento de Google explicado
Google lanzó Gemini 3.1 Pro el 19 de febrero de 2026 — con una puntuación de 77.1% en ARC-AGI-2, más del doble que Gemini 3 Pro. Desglose completo de benchmarks, precios ($2/$12 por M de tokens), disponibilidad y lo que significa para los desarrolladores.
TL;DR
Google lanzó Gemini 3.1 Pro (preview) el 19 de febrero de 2026. Las cifras clave:
- ARC-AGI-2: 77.1% — más del doble que Gemini 3 Pro (31.1%), supera a Opus 4.6 (68.8%) y GPT-5.2 (52.9%)
- GPQA Diamond: 94.3% — lidera todos los modelos en ciencias a nivel de posgrado
- SWE-bench: 80.6% — iguala a Opus 4.6 (80.8%) en programación
- Precio: $2/$12 por M de tokens — el modelo de frontera más barato
- Contexto de 1M de tokens — sin cambios respecto a Gemini 3 Pro
- Lidera en 13 de 16 benchmarks evaluados por Google
- Disponible ahora en preview: AI Studio, Vertex AI, Gemini CLI, app de Gemini
Lo que Google anunció
El 19 de febrero de 2026, Google lanzó Gemini 3.1 Pro — el primer incremento ".1" en la versión de sus modelos. Se basa en Gemini 3 Pro (noviembre de 2025) integrando técnicas de la serie Gemini 3 Deep Think en un modelo más accesible y rápido.
El blog de Google lo describe como diseñado para "tareas donde una respuesta simple no es suficiente" — razonamiento complejo de múltiples pasos, síntesis de datos y flujos de trabajo agénticos.
La estadística principal: 77.1% en ARC-AGI-2, el benchmark para el razonamiento abstracto novedoso. Eso es más del doble del 31.1% de Gemini 3 Pro, y está significativamente por delante tanto de Opus 4.6 (68.8%) como de GPT-5.2 (52.9%). VentureBeat lo llama "un Deep Think Mini con razonamiento ajustable bajo demanda".
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Desglose completo de benchmarks
Donde Gemini 3.1 Pro lidera (13 de 16 benchmarks)
| Benchmark | Qué evalúa | Gemini 3.1 Pro | Mejor competidor |
|---|---|---|---|
| ARC-AGI-2 | Razonamiento novedoso | 77.1% | Opus 4.6: 68.8% |
| GPQA Diamond | Ciencias (posgrado) | 94.3% | GPT-5.2: 92.4% |
| BrowseComp | Búsqueda web agéntica | 85.9% | Opus 4.6: 84.0% |
| Terminal-Bench 2.0 | Programación en terminal | 68.5% | Opus 4.6: 65.4% |
| APEX-Agents | Capacidades de agentes | 33.5% | Opus 4.6: 29.8% |
| MCP Atlas | Uso de herramientas | 69.2% | — |
| t2-bench Telecom | Dominio específico | 99.3% | — |
| SWE-bench Verified | Programación | 80.6% | Opus 4.6: 80.8% |
| MRCR v2 | Contexto largo | 84.9% | Sonnet 4.6: 84.9% (empate) |
Donde los competidores aún ganan
| Benchmark | Qué evalúa | Ganador | Gemini 3.1 Pro |
|---|---|---|---|
| GDPval-AA (Elo) | Tareas de oficina | Sonnet 4.6: 1633 | No revelado |
| Terminal-Bench 2.0 | Programación pesada en terminal | GPT-5.3-Codex: 77.3% | 68.5% |
| SWE-Bench Pro | Programación avanzada | GPT-5.3-Codex: 56.8% | No revelado |
| OSWorld | Uso de computadora | Sonnet 4.6: 72.5% | No evaluado |
El salto en razonamiento en contexto
ARC-AGI-2 mide la capacidad de un modelo para resolver problemas que nunca ha visto antes — razonamiento abstracto puro, no coincidencia de patrones a partir de datos de entrenamiento. Así de rápido mejoró Gemini:
| Modelo | ARC-AGI-2 | Fecha |
|---|---|---|
| Gemini 3 Pro | 31.1% | Nov 2025 |
| GPT-5.2 | 52.9% | Dic 2025 |
| Claude Opus 4.6 | 68.8% | Feb 2026 |
| Gemini 3.1 Pro | 77.1% | Feb 2026 |
Gemini 3.1 Pro saltó del 31.1% al 77.1% en una sola versión — una mejora del 148%. Esto proviene de la integración de las técnicas de razonamiento extendido de Deep Think en el modelo base.
Qué cambió vs. Gemini 3 Pro
1. Integración de Deep Think
Gemini 3 Deep Think era un modelo separado y más lento, optimizado para el razonamiento extendido. Gemini 3.1 Pro incorpora esas técnicas en el modelo estándar, con profundidad de razonamiento ajustable. Obtienes un razonamiento al nivel de Deep Think sin la latencia de Deep Think para la mayoría de las tareas.
2. Razonamiento drásticamente mejor
Los números hablan por sí solos:
| Benchmark | Gemini 3 Pro | Gemini 3.1 Pro | Mejora |
|---|---|---|---|
| ARC-AGI-2 | 31.1% | 77.1% | +148% |
| GPQA Diamond | ~88% | 94.3% | +7% |
| APEX-Agents | 18.4% | 33.5% | +82% |
3. Mejor rendimiento agéntico
Las puntuaciones de APEX-Agents (33.5%) y MCP Atlas (69.2%) muestran que Gemini 3.1 Pro es significativamente más capaz como agente autónomo — el uso de herramientas, la planificación de múltiples pasos y la autocorrección han mejorado.
4. Fortaleza multimodal mantenida
Gemini 3.1 Pro conserva la ventaja principal de Gemini: procesamiento multimodal nativo de texto, imágenes, audio y video dentro de un solo contexto. Ningún otro modelo de frontera iguala esta amplitud a este precio.
Precios
Mismo precio que Gemini 3 Pro — una actualización gratuita:
| Tamaño de contexto | Entrada (por M de tokens) | Salida (por M de tokens) |
|---|---|---|
| ≤200K tokens | $2.00 | $12.00 |
| >200K tokens | $4.00 | $18.00 |
Comparación con competidores
| Modelo | Entrada | Salida | Costo relativo |
|---|---|---|---|
| Gemini 3.1 Pro | $2.00 | $12.00 | 1x |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 1.5x |
| GPT-5.2 | $5.00 | $15.00 | 2.0x (entrada) |
| Claude Opus 4.6 | $15.00 | $75.00 | 7.5x |
Gemini 3.1 Pro es el modelo de frontera más barato — un 33% más económico que Sonnet 4.6 en entrada y un 20% más económico en salida.
Costo por sesión (100K entrada + 20K salida)
| Modelo | Costo |
|---|---|
| Gemini 3.1 Pro | $0.44 |
| Claude Sonnet 4.6 | $0.60 |
| GPT-5.2 | $0.80 |
| Claude Opus 4.6 | $3.00 |
Optimización de costos adicional:
- Modo Batch: 50% de descuento ($0.22/sesión)
- Context caching: Las lecturas de entrada en caché cuestan el 10% del precio base
Disponibilidad
Dónde usarlo
| Plataforma | Estado | ID del modelo |
|---|---|---|
| App de Gemini (consumidor) | Desplegándose | Seleccionado auto. |
| Google AI Studio | Disponible ahora | gemini-3.1-pro-preview |
| Vertex AI | Disponible ahora | gemini-3.1-pro-preview |
| Gemini API | Disponible ahora | gemini-3.1-pro-preview |
| Gemini CLI | Disponible ahora | gemini-3.1-pro-preview |
| Antigravity | Disponible ahora | Seleccionado auto. |
| Android Studio | Disponible ahora | Seleccionado auto. |
| GitHub Copilot | Public preview | Seleccionable |
| NotebookLM | Suscriptores Pro/Ultra | Seleccionado auto. |
Inicio rápido de la API
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")
response = model.generate_content("Your prompt here")
print(response.text)
Endpoint de herramientas personalizadas (Custom Tools)
Google también lanzó un endpoint especializado para un mejor rendimiento de las herramientas:
model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")
Usa este endpoint cuando construyas agentes que dependan fuertemente del function calling y el uso de herramientas.
Qué significa esto
La carrera del razonamiento se calienta
Tres modelos de frontera lanzados en 13 días:
- 6 de feb: Claude Opus 4.6 (Anthropic)
- 17 de feb: Claude Sonnet 4.6 (Anthropic)
- 19 de feb: Gemini 3.1 Pro (Google)
Cada uno reclama el liderazgo en diferentes áreas. El panorama de los modelos se está fragmentando — ya ningún modelo único domina todo.
El mejor razonamiento de su clase a precios económicos
El 77.1% de Gemini 3.1 Pro en ARC-AGI-2 es la puntuación de razonamiento más alta disponible, al precio más bajo ($2/$12). Para tareas que requieren resolución de problemas novedosos, razonamiento abstracto o análisis científico, es la elección clara.
Paridad en programación
Con un 80.6% en SWE-bench (frente al 80.8% de Opus 4.6 y el 79.6% de Sonnet 4.6), Gemini 3.1 Pro es ahora competitivo en programación por primera vez. Los modelos Gemini anteriores iban significativamente a la zaga de Claude en este benchmark.
La pieza faltante: Uso de computadoras
Gemini 3.1 Pro no tiene benchmarks en OSWorld (uso de computadoras). Claude Sonnet 4.6 lidera con un 72.5% en esta capacidad. Si tu flujo de trabajo implica automatización del navegador, llenado de formularios o control del escritorio, Claude sigue siendo la única opción viable.
Para desarrolladores que construyen productos
Las implicaciones prácticas:
- Razonamiento más barato: $0.44/sesión vs $0.60 (Sonnet) vs $0.80 (GPT-5.2)
- El mejor para tareas científicas/analíticas: 94.3% en GPQA Diamond es la puntuación más alta disponible
- Competitivo en programación: 80.6% en SWE-bench cierra la brecha con Claude
- Ventaja multimodal: Procesamiento nativo de video/audio que Claude y GPT no igualan
- Estado preview: Aún no es GA — se esperan mejoras antes de la disponibilidad general
¿Construyendo con IA? Y Build se integra con tus herramientas de IA preferidas para el desarrollo, luego se encarga del despliegue, videos de producto Demo Cut, AI SEO y analíticas — el stack completo desde el código hasta el crecimiento. Comienza gratis.
Fuentes:
- Google Blog: Anuncio de Gemini 3.1 Pro
- Google DeepMind: Gemini 3.1 Pro Model Card
- 9to5Google: Gemini 3.1 Pro para resolución de problemas complejos
- VentureBeat: Primeras impresiones de Gemini 3.1 Pro
- MarkTechPost: Gemini 3.1 Pro 77.1% ARC-AGI-2
- OfficeChai: Benchmarks de Gemini 3.1 Pro
- GitHub Blog: Gemini 3.1 Pro en GitHub Copilot
- The Decoder: Razonamiento de Gemini 3.1 Pro
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.