Gemini 3.1 Pro: Google의 추론 능력 도약 분석
Google은 2026년 2월 19일 Gemini 3.1 Pro를 출시했습니다. ARC-AGI-2에서 77.1%를 기록하며 Gemini 3 Pro보다 두 배 이상의 성능을 보여주었습니다. 전체 벤치마크 분석, 가격(백만 토큰당 $2/$12), 가용성 및 개발자에게 미치는 영향에 대해 알아봅니다.
핵심 요약 (TL;DR)
Google은 2026년 2월 19일 Gemini 3.1 Pro(프리뷰)를 출시했습니다. 주요 수치는 다음과 같습니다:
- ARC-AGI-2: 77.1% — Gemini 3 Pro(31.1%)의 두 배 이상이며, Opus 4.6(68.8%) 및 GPT-5.2(52.9%)를 능가합니다.
- GPQA Diamond: 94.3% — 대학원 수준의 과학 분야에서 모든 모델 중 선두를 차지했습니다.
- SWE-bench: 80.6% — 코딩 분야에서 Opus 4.6(80.8%)과 대등한 성능을 보입니다.
- 가격: 백만 토큰당 $2/$12 — 가장 저렴한 프런티어 모델입니다.
- 1M 토큰 컨텍스트 — Gemini 3 Pro와 동일하게 유지되었습니다.
- Google이 평가한 16개 벤치마크 중 13개에서 선두를 기록했습니다.
- 현재 AI Studio, Vertex AI, Gemini CLI, Gemini 앱에서 프리뷰로 사용 가능합니다.
Google의 발표 내용
2026년 2월 19일, Google은 모델 버전 관리에서 최초의 ".1" 업데이트인 Gemini 3.1 Pro를 출시했습니다. 이 모델은 Gemini 3 Pro(2025년 11월)를 기반으로 하며, Gemini 3 Deep Think 시리즈의 기술을 더 접근하기 쉽고 빠른 모델에 통합했습니다.
Google의 블로그에서는 이 모델이 "단순한 답변만으로는 충분하지 않은 작업", 즉 복잡한 다단계 추론, 데이터 합성 및 에이전트 워크플로우를 위해 설계되었다고 설명합니다.
주요 통계는 다음과 같습니다: 새로운 추상적 추론에 대한 벤치마크인 ARC-AGI-2에서 77.1%를 기록했습니다. 이는 Gemini 3 Pro의 31.1%보다 두 배 이상 높으며, Opus 4.6(68.8%)과 GPT-5.2(52.9%)를 크게 앞서는 수치입니다. VentureBeat는 이를 "필요에 따라 조정 가능한 추론 기능을 갖춘 Deep Think Mini"라고 평가했습니다.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
전체 벤치마크 분석
Gemini 3.1 Pro가 우세한 항목 (16개 중 13개 벤치마크)
| 벤치마크 | 테스트 항목 | Gemini 3.1 Pro | 최고 경쟁 모델 |
|---|---|---|---|
| ARC-AGI-2 | 새로운 추론 | 77.1% | Opus 4.6: 68.8% |
| GPQA Diamond | 대학원 수준 과학 | 94.3% | GPT-5.2: 92.4% |
| BrowseComp | 에이전트 기반 웹 검색 | 85.9% | Opus 4.6: 84.0% |
| Terminal-Bench 2.0 | 터미널 코딩 | 68.5% | Opus 4.6: 65.4% |
| APEX-Agents | 에이전트 역량 | 33.5% | Opus 4.6: 29.8% |
| MCP Atlas | 도구 사용 (Tool use) | 69.2% | — |
| t2-bench Telecom | 도메인 특화 | 99.3% | — |
| SWE-bench Verified | 코딩 | 80.6% | Opus 4.6: 80.8% |
| MRCR v2 | 긴 컨텍스트 | 84.9% | Sonnet 4.6: 84.9% (동률) |
경쟁 모델이 여전히 우세한 항목
| 벤치마크 | 테스트 항목 | 승자 | Gemini 3.1 Pro |
|---|---|---|---|
| GDPval-AA (Elo) | 오피스 작업 | Sonnet 4.6: 1633 | 공개되지 않음 |
| Terminal-Bench 2.0 | 고난도 터미널 코딩 | GPT-5.3-Codex: 77.3% | 68.5% |
| SWE-Bench Pro | 고급 코딩 | GPT-5.3-Codex: 56.8% | 공개되지 않음 |
| OSWorld | 컴퓨터 사용 능력 | Sonnet 4.6: 72.5% | 벤치마크 미실시 |
컨텍스트에서의 추론 능력 도약
ARC-AGI-2는 모델이 이전에 본 적 없는 문제를 해결하는 능력인, 학습 데이터의 패턴 매칭이 아닌 순수 추상적 추론 능력을 측정합니다. Gemini의 개선 속도는 다음과 같습니다:
| 모델 | ARC-AGI-2 | 날짜 |
|---|---|---|
| Gemini 3 Pro | 31.1% | 2025년 11월 |
| GPT-5.2 | 52.9% | 2025년 12월 |
| Claude Opus 4.6 | 68.8% | 2026년 2월 |
| Gemini 3.1 Pro | 77.1% | 2026년 2월 |
Gemini 3.1 Pro는 단 한 번의 버전 업데이트 만에 31.1%에서 77.1%로 뛰어올랐으며, 이는 148%의 향상입니다. 이는 Deep Think의 확장된 추론 기술을 기본 모델에 통합함으로써 가능해졌습니다.
Gemini 3 Pro 대비 변경 사항
1. Deep Think 통합
Gemini 3 Deep Think는 확장된 추론에 최적화된 별도의 느린 모델이었습니다. Gemini 3.1 Pro는 이러한 기술을 표준 모델에 내장하여 추론 깊이를 조정할 수 있게 했습니다. 대부분의 작업에서 Deep Think 수준의 지연 시간 없이 그에 상응하는 추론 능력을 얻을 수 있습니다.
2. 비약적으로 향상된 추론 능력
수치가 이를 증명합니다:
| 벤치마크 | Gemini 3 Pro | Gemini 3.1 Pro | 향상 정도 |
|---|---|---|---|
| ARC-AGI-2 | 31.1% | 77.1% | +148% |
| GPQA Diamond | ~88% | 94.3% | +7% |
| APEX-Agents | 18.4% | 33.5% | +82% |
3. 개선된 에이전트 성능
APEX-Agents(33.5%) 및 MCP Atlas(69.2%) 점수는 Gemini 3.1 Pro가 자율 에이전트로서 훨씬 더 유능하다는 것을 보여줍니다. 도구 사용, 다단계 계획 및 자가 수정 능력이 모두 향상되었습니다.
4. 멀티모달 강점 유지
Gemini 3.1 Pro는 단일 컨텍스트 내에서 텍스트, 이미지, 오디오 및 비디오를 기본적으로 처리하는 Gemini의 핵심 장점을 그대로 유지합니다. 이 가격대에서 이 정도의 범용성을 갖춘 프런티어 모델은 없습니다.
가격 정책
Gemini 3 Pro와 동일한 가격으로 제공되는 무료 업그레이드입니다:
| 컨텍스트 크기 | 입력 (백만 토큰당) | 출력 (백만 토큰당) |
|---|---|---|
| ≤200K 토큰 | $2.00 | $12.00 |
| >200K 토큰 | $4.00 | $18.00 |
경쟁 모델과의 비교
| 모델 | 입력 | 출력 | 상대적 비용 |
|---|---|---|---|
| Gemini 3.1 Pro | $2.00 | $12.00 | 1x |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 1.5배 |
| GPT-5.2 | $5.00 | $15.00 | 2.0배 (입력 기준) |
| Claude Opus 4.6 | $15.00 | $75.00 | 7.5배 |
Gemini 3.1 Pro는 가장 저렴한 프런티어 모델로, Sonnet 4.6보다 입력은 33%, 출력은 20% 더 저렴합니다.
세션당 비용 (100K 입력 + 20K 출력 기준)
| 모델 | 비용 |
|---|---|
| Gemini 3.1 Pro | $0.44 |
| Claude Sonnet 4.6 | $0.60 |
| GPT-5.2 | $0.80 |
| Claude Opus 4.6 | $3.00 |
추가적인 비용 최적화:
- 배치 모드 (Batch mode): 50% 할인 (세션당 $0.22)
- 컨텍스트 캐싱 (Context caching): 캐싱된 입력 읽기 비용은 기본 가격의 10%
가용성
사용 가능 플랫폼
| 플랫폼 | 상태 | 모델 ID |
|---|---|---|
| Gemini 앱 (일반 사용자용) | 순차 출시 중 | 자동 선택 |
| Google AI Studio | 현재 사용 가능 | gemini-3.1-pro-preview |
| Vertex AI | 현재 사용 가능 | gemini-3.1-pro-preview |
| Gemini API | 현재 사용 가능 | gemini-3.1-pro-preview |
| Gemini CLI | 현재 사용 가능 | gemini-3.1-pro-preview |
| Antigravity | 현재 사용 가능 | 자동 선택 |
| Android Studio | 현재 사용 가능 | 자동 선택 |
| GitHub Copilot | 퍼블릭 프리뷰 | 선택 가능 |
| NotebookLM | Pro/Ultra 구독자 | 자동 선택 |
API 빠른 시작
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")
response = model.generate_content("Your prompt here")
print(response.text)
맞춤형 도구 엔드포인트
Google은 또한 더 나은 도구 성능을 위한 전용 엔드포인트를 출시했습니다:
model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")
함수 호출(function calling) 및 도구 사용에 크게 의존하는 에이전트를 구축할 때 이 엔드포인트를 사용하십시오.
이번 발표의 의미
뜨거워지는 추론 경쟁
13일 동안 세 개의 프런티어 모델이 출시되었습니다:
- 2월 6일: Claude Opus 4.6 (Anthropic)
- 2월 17일: Claude Sonnet 4.6 (Anthropic)
- 2월 19일: Gemini 3.1 Pro (Google)
각 모델은 서로 다른 영역에서 우위를 주장하고 있습니다. 모델 시장이 세분화되고 있으며, 더 이상 하나의 모델이 모든 것을 지배하지 않습니다.
저렴한 가격으로 제공되는 업계 최고 수준의 추론
Gemini 3.1 Pro의 77.1% ARC-AGI-2는 현재 사용 가능한 가장 높은 추론 점수이며, 가격은 가장 저렴($2/$12)합니다. 새로운 문제 해결, 추상적 추론 또는 과학적 분석이 필요한 작업에 있어 가장 확실한 선택입니다.
코딩 능력 동등 수준 도달
SWE-bench에서 80.6%를 기록하며(Opus 4.6의 80.8% 및 Sonnet 4.6의 79.6% 대비), Gemini 3.1 Pro는 처음으로 코딩 분야에서 경쟁력을 갖추게 되었습니다. 이전 Gemini 모델들은 이 벤치마크에서 Claude에 크게 뒤쳐져 있었습니다.
부족한 부분: 컴퓨터 사용 능력
Gemini 3.1 Pro는 OSWorld(컴퓨터 사용 능력) 벤치마크 결과가 없습니다. Claude Sonnet 4.6은 이 기능에서 72.5%로 선두를 달리고 있습니다. 브라우저 자동화, 양식 채우기 또는 데스크톱 제어가 포함된 워크플로우의 경우 Claude가 여전히 유일한 대안입니다.
제품을 구축하는 개발자를 위한 제언
실질적인 시사점:
- 가장 저렴한 추론: 세션당 $0.44 (Sonnet $0.60, GPT-5.2 $0.80 대비)
- 과학/분석 작업에 최적: 94.3% GPQA Diamond는 현재 사용 가능한 최고 점수
- 코딩 경쟁력 확보: 80.6% SWE-bench로 Claude와의 격차를 좁힘
- 멀티모달 우위: Claude나 GPT가 따라오지 못하는 네이티브 비디오/오디오 처리 능력
- 프리뷰 상태: 아직 정식 버전(GA)이 아니며, 정식 출시 전까지 개선이 기대됨
AI로 무언가를 만들고 계신가요? Y Build는 개발을 위한 선호 AI 도구와 통합된 후, 배포, Demo Cut 제품 비디오, AI SEO 및 분석까지 코드에서 성장까지의 전체 스택을 처리합니다. 무료로 시작하기.
출처:
- Google Blog: Gemini 3.1 Pro announcement
- Google DeepMind: Gemini 3.1 Pro Model Card
- 9to5Google: Gemini 3.1 Pro for complex problem-solving
- VentureBeat: Gemini 3.1 Pro first impressions
- MarkTechPost: Gemini 3.1 Pro 77.1% ARC-AGI-2
- OfficeChai: Gemini 3.1 Pro Benchmarks
- GitHub Blog: Gemini 3.1 Pro in GitHub Copilot
- The Decoder: Gemini 3.1 Pro reasoning
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.