Gemini 3.1 Pro: Google의 추론 능력 도약 분석

핵심 요약 (TL;DR)

Google은 2026년 2월 19일 Gemini 3.1 Pro(프리뷰)를 출시했습니다. 주요 수치는 다음과 같습니다:

ARC-AGI-2: 77.1% — Gemini 3 Pro(31.1%)의 두 배 이상이며, Opus 4.6(68.8%) 및 GPT-5.2(52.9%)를 능가합니다.
GPQA Diamond: 94.3% — 대학원 수준의 과학 분야에서 모든 모델 중 선두를 차지했습니다.
SWE-bench: 80.6% — 코딩 분야에서 Opus 4.6(80.8%)과 대등한 성능을 보입니다.
가격: 백만 토큰당 $2/$12 — 가장 저렴한 프런티어 모델입니다.
1M 토큰 컨텍스트 — Gemini 3 Pro와 동일하게 유지되었습니다.
Google이 평가한 16개 벤치마크 중 13개에서 선두를 기록했습니다.
현재 AI Studio, Vertex AI, Gemini CLI, Gemini 앱에서 프리뷰로 사용 가능합니다.

Google의 발표 내용

2026년 2월 19일, Google은 모델 버전 관리에서 최초의 ".1" 업데이트인 Gemini 3.1 Pro를 출시했습니다. 이 모델은 Gemini 3 Pro(2025년 11월)를 기반으로 하며, Gemini 3 Deep Think 시리즈의 기술을 더 접근하기 쉽고 빠른 모델에 통합했습니다.

Google의 블로그에서는 이 모델이 "단순한 답변만으로는 충분하지 않은 작업", 즉 복잡한 다단계 추론, 데이터 합성 및 에이전트 워크플로우를 위해 설계되었다고 설명합니다.

주요 통계는 다음과 같습니다: 새로운 추상적 추론에 대한 벤치마크인 ARC-AGI-2에서 77.1%를 기록했습니다. 이는 Gemini 3 Pro의 31.1%보다 두 배 이상 높으며, Opus 4.6(68.8%)과 GPT-5.2(52.9%)를 크게 앞서는 수치입니다. VentureBeat는 이를 "필요에 따라 조정 가능한 추론 기능을 갖춘 Deep Think Mini"라고 평가했습니다.

전체 벤치마크 분석

Gemini 3.1 Pro가 우세한 항목 (16개 중 13개 벤치마크)

벤치마크	테스트 항목	Gemini 3.1 Pro	최고 경쟁 모델
ARC-AGI-2	새로운 추론	77.1%	Opus 4.6: 68.8%
GPQA Diamond	대학원 수준 과학	94.3%	GPT-5.2: 92.4%
BrowseComp	에이전트 기반 웹 검색	85.9%	Opus 4.6: 84.0%
Terminal-Bench 2.0	터미널 코딩	68.5%	Opus 4.6: 65.4%
APEX-Agents	에이전트 역량	33.5%	Opus 4.6: 29.8%
MCP Atlas	도구 사용 (Tool use)	69.2%	—
t2-bench Telecom	도메인 특화	99.3%	—
SWE-bench Verified	코딩	80.6%	Opus 4.6: 80.8%
MRCR v2	긴 컨텍스트	84.9%	Sonnet 4.6: 84.9% (동률)

경쟁 모델이 여전히 우세한 항목

벤치마크	테스트 항목	승자	Gemini 3.1 Pro
GDPval-AA (Elo)	오피스 작업	Sonnet 4.6: 1633	공개되지 않음
Terminal-Bench 2.0	고난도 터미널 코딩	GPT-5.3-Codex: 77.3%	68.5%
SWE-Bench Pro	고급 코딩	GPT-5.3-Codex: 56.8%	공개되지 않음
OSWorld	컴퓨터 사용 능력	Sonnet 4.6: 72.5%	벤치마크 미실시

컨텍스트에서의 추론 능력 도약

ARC-AGI-2는 모델이 이전에 본 적 없는 문제를 해결하는 능력인, 학습 데이터의 패턴 매칭이 아닌 순수 추상적 추론 능력을 측정합니다. Gemini의 개선 속도는 다음과 같습니다:

모델	ARC-AGI-2	날짜
Gemini 3 Pro	31.1%	2025년 11월
GPT-5.2	52.9%	2025년 12월
Claude Opus 4.6	68.8%	2026년 2월
Gemini 3.1 Pro	77.1%	2026년 2월

Gemini 3.1 Pro는 단 한 번의 버전 업데이트 만에 31.1%에서 77.1%로 뛰어올랐으며, 이는 148%의 향상입니다. 이는 Deep Think의 확장된 추론 기술을 기본 모델에 통합함으로써 가능해졌습니다.

Gemini 3 Pro 대비 변경 사항

1. Deep Think 통합

Gemini 3 Deep Think는 확장된 추론에 최적화된 별도의 느린 모델이었습니다. Gemini 3.1 Pro는 이러한 기술을 표준 모델에 내장하여 추론 깊이를 조정할 수 있게 했습니다. 대부분의 작업에서 Deep Think 수준의 지연 시간 없이 그에 상응하는 추론 능력을 얻을 수 있습니다.

2. 비약적으로 향상된 추론 능력

수치가 이를 증명합니다:

벤치마크	Gemini 3 Pro	Gemini 3.1 Pro	향상 정도
ARC-AGI-2	31.1%	77.1%	+148%
GPQA Diamond	~88%	94.3%	+7%
APEX-Agents	18.4%	33.5%	+82%

3. 개선된 에이전트 성능

APEX-Agents(33.5%) 및 MCP Atlas(69.2%) 점수는 Gemini 3.1 Pro가 자율 에이전트로서 훨씬 더 유능하다는 것을 보여줍니다. 도구 사용, 다단계 계획 및 자가 수정 능력이 모두 향상되었습니다.

4. 멀티모달 강점 유지

Gemini 3.1 Pro는 단일 컨텍스트 내에서 텍스트, 이미지, 오디오 및 비디오를 기본적으로 처리하는 Gemini의 핵심 장점을 그대로 유지합니다. 이 가격대에서 이 정도의 범용성을 갖춘 프런티어 모델은 없습니다.

가격 정책

Gemini 3 Pro와 동일한 가격으로 제공되는 무료 업그레이드입니다:

컨텍스트 크기	입력 (백만 토큰당)	출력 (백만 토큰당)
≤200K 토큰	$2.00	$12.00
>200K 토큰	$4.00	$18.00

경쟁 모델과의 비교

모델	입력	출력	상대적 비용
Gemini 3.1 Pro	$2.00	$12.00	1x
Claude Sonnet 4.6	$3.00	$15.00	1.5배
GPT-5.2	$5.00	$15.00	2.0배 (입력 기준)
Claude Opus 4.6	$15.00	$75.00	7.5배

Gemini 3.1 Pro는 가장 저렴한 프런티어 모델로, Sonnet 4.6보다 입력은 33%, 출력은 20% 더 저렴합니다.

세션당 비용 (100K 입력 + 20K 출력 기준)

모델	비용
Gemini 3.1 Pro	$0.44
Claude Sonnet 4.6	$0.60
GPT-5.2	$0.80
Claude Opus 4.6	$3.00

추가적인 비용 최적화:

배치 모드 (Batch mode): 50% 할인 (세션당 $0.22)

컨텍스트 캐싱 (Context caching): 캐싱된 입력 읽기 비용은 기본 가격의 10%

가용성

사용 가능 플랫폼

플랫폼	상태	모델 ID
Gemini 앱 (일반 사용자용)	순차 출시 중	자동 선택
Google AI Studio	현재 사용 가능	`gemini-3.1-pro-preview`
Vertex AI	현재 사용 가능	`gemini-3.1-pro-preview`
Gemini API	현재 사용 가능	`gemini-3.1-pro-preview`
Gemini CLI	현재 사용 가능	`gemini-3.1-pro-preview`
Antigravity	현재 사용 가능	자동 선택
Android Studio	현재 사용 가능	자동 선택
GitHub Copilot	퍼블릭 프리뷰	선택 가능
NotebookLM	Pro/Ultra 구독자	자동 선택

API 빠른 시작

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

맞춤형 도구 엔드포인트

Google은 또한 더 나은 도구 성능을 위한 전용 엔드포인트를 출시했습니다:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

함수 호출(function calling) 및 도구 사용에 크게 의존하는 에이전트를 구축할 때 이 엔드포인트를 사용하십시오.

이번 발표의 의미

뜨거워지는 추론 경쟁

13일 동안 세 개의 프런티어 모델이 출시되었습니다:

2월 6일: Claude Opus 4.6 (Anthropic)

2월 17일: Claude Sonnet 4.6 (Anthropic)

2월 19일: Gemini 3.1 Pro (Google)

각 모델은 서로 다른 영역에서 우위를 주장하고 있습니다. 모델 시장이 세분화되고 있으며, 더 이상 하나의 모델이 모든 것을 지배하지 않습니다.

저렴한 가격으로 제공되는 업계 최고 수준의 추론

Gemini 3.1 Pro의 77.1% ARC-AGI-2는 현재 사용 가능한 가장 높은 추론 점수이며, 가격은 가장 저렴($2/$12)합니다. 새로운 문제 해결, 추상적 추론 또는 과학적 분석이 필요한 작업에 있어 가장 확실한 선택입니다.

코딩 능력 동등 수준 도달

SWE-bench에서 80.6%를 기록하며(Opus 4.6의 80.8% 및 Sonnet 4.6의 79.6% 대비), Gemini 3.1 Pro는 처음으로 코딩 분야에서 경쟁력을 갖추게 되었습니다. 이전 Gemini 모델들은 이 벤치마크에서 Claude에 크게 뒤쳐져 있었습니다.

부족한 부분: 컴퓨터 사용 능력

Gemini 3.1 Pro는 OSWorld(컴퓨터 사용 능력) 벤치마크 결과가 없습니다. Claude Sonnet 4.6은 이 기능에서 72.5%로 선두를 달리고 있습니다. 브라우저 자동화, 양식 채우기 또는 데스크톱 제어가 포함된 워크플로우의 경우 Claude가 여전히 유일한 대안입니다.

제품을 구축하는 개발자를 위한 제언

실질적인 시사점:

가장 저렴한 추론: 세션당 $0.44 (Sonnet $0.60, GPT-5.2 $0.80 대비)

과학/분석 작업에 최적: 94.3% GPQA Diamond는 현재 사용 가능한 최고 점수

코딩 경쟁력 확보: 80.6% SWE-bench로 Claude와의 격차를 좁힘

멀티모달 우위: Claude나 GPT가 따라오지 못하는 네이티브 비디오/오디오 처리 능력

프리뷰 상태: 아직 정식 버전(GA)이 아니며, 정식 출시 전까지 개선이 기대됨

AI로 무언가를 만들고 계신가요? Y Build는 개발을 위한 선호 AI 도구와 통합된 후, 배포, Demo Cut 제품 비디오, AI SEO 및 분석까지 코드에서 성장까지의 전체 스택을 처리합니다. 무료로 시작하기.

출처:

핵심 요약 (TL;DR)

Google은 2026년 2월 19일 Gemini 3.1 Pro(프리뷰)를 출시했습니다. 주요 수치는 다음과 같습니다:

ARC-AGI-2: 77.1% — Gemini 3 Pro(31.1%)의 두 배 이상이며, Opus 4.6(68.8%) 및 GPT-5.2(52.9%)를 능가합니다.
GPQA Diamond: 94.3% — 대학원 수준의 과학 분야에서 모든 모델 중 선두를 차지했습니다.
SWE-bench: 80.6% — 코딩 분야에서 Opus 4.6(80.8%)과 대등한 성능을 보입니다.
가격: 백만 토큰당 $2/$12 — 가장 저렴한 프런티어 모델입니다.
1M 토큰 컨텍스트 — Gemini 3 Pro와 동일하게 유지되었습니다.
Google이 평가한 16개 벤치마크 중 13개에서 선두를 기록했습니다.
현재 AI Studio, Vertex AI, Gemini CLI, Gemini 앱에서 프리뷰로 사용 가능합니다.

Google의 발표 내용

전체 벤치마크 분석

Gemini 3.1 Pro가 우세한 항목 (16개 중 13개 벤치마크)

벤치마크	테스트 항목	Gemini 3.1 Pro	최고 경쟁 모델
ARC-AGI-2	새로운 추론	77.1%	Opus 4.6: 68.8%
GPQA Diamond	대학원 수준 과학	94.3%	GPT-5.2: 92.4%
BrowseComp	에이전트 기반 웹 검색	85.9%	Opus 4.6: 84.0%
Terminal-Bench 2.0	터미널 코딩	68.5%	Opus 4.6: 65.4%
APEX-Agents	에이전트 역량	33.5%	Opus 4.6: 29.8%
MCP Atlas	도구 사용 (Tool use)	69.2%	—
t2-bench Telecom	도메인 특화	99.3%	—
SWE-bench Verified	코딩	80.6%	Opus 4.6: 80.8%
MRCR v2	긴 컨텍스트	84.9%	Sonnet 4.6: 84.9% (동률)

경쟁 모델이 여전히 우세한 항목

벤치마크	테스트 항목	승자	Gemini 3.1 Pro
GDPval-AA (Elo)	오피스 작업	Sonnet 4.6: 1633	공개되지 않음
Terminal-Bench 2.0	고난도 터미널 코딩	GPT-5.3-Codex: 77.3%	68.5%
SWE-Bench Pro	고급 코딩	GPT-5.3-Codex: 56.8%	공개되지 않음
OSWorld	컴퓨터 사용 능력	Sonnet 4.6: 72.5%	벤치마크 미실시

컨텍스트에서의 추론 능력 도약

모델	ARC-AGI-2	날짜
Gemini 3 Pro	31.1%	2025년 11월
GPT-5.2	52.9%	2025년 12월
Claude Opus 4.6	68.8%	2026년 2월
Gemini 3.1 Pro	77.1%	2026년 2월

Gemini 3 Pro 대비 변경 사항

1. Deep Think 통합

2. 비약적으로 향상된 추론 능력

수치가 이를 증명합니다:

벤치마크	Gemini 3 Pro	Gemini 3.1 Pro	향상 정도
ARC-AGI-2	31.1%	77.1%	+148%
GPQA Diamond	~88%	94.3%	+7%
APEX-Agents	18.4%	33.5%	+82%

3. 개선된 에이전트 성능

4. 멀티모달 강점 유지

가격 정책

Gemini 3 Pro와 동일한 가격으로 제공되는 무료 업그레이드입니다:

컨텍스트 크기	입력 (백만 토큰당)	출력 (백만 토큰당)
≤200K 토큰	$2.00	$12.00
>200K 토큰	$4.00	$18.00

경쟁 모델과의 비교

모델	입력	출력	상대적 비용
Gemini 3.1 Pro	$2.00	$12.00	1x
Claude Sonnet 4.6	$3.00	$15.00	1.5배
GPT-5.2	$5.00	$15.00	2.0배 (입력 기준)
Claude Opus 4.6	$15.00	$75.00	7.5배

Gemini 3.1 Pro는 가장 저렴한 프런티어 모델로, Sonnet 4.6보다 입력은 33%, 출력은 20% 더 저렴합니다.

세션당 비용 (100K 입력 + 20K 출력 기준)

모델	비용
Gemini 3.1 Pro	$0.44
Claude Sonnet 4.6	$0.60
GPT-5.2	$0.80
Claude Opus 4.6	$3.00

추가적인 비용 최적화:

배치 모드 (Batch mode): 50% 할인 (세션당 $0.22)

컨텍스트 캐싱 (Context caching): 캐싱된 입력 읽기 비용은 기본 가격의 10%

가용성

사용 가능 플랫폼

플랫폼	상태	모델 ID
Gemini 앱 (일반 사용자용)	순차 출시 중	자동 선택
Google AI Studio	현재 사용 가능	`gemini-3.1-pro-preview`
Vertex AI	현재 사용 가능	`gemini-3.1-pro-preview`
Gemini API	현재 사용 가능	`gemini-3.1-pro-preview`
Gemini CLI	현재 사용 가능	`gemini-3.1-pro-preview`
Antigravity	현재 사용 가능	자동 선택
Android Studio	현재 사용 가능	자동 선택
GitHub Copilot	퍼블릭 프리뷰	선택 가능
NotebookLM	Pro/Ultra 구독자	자동 선택

API 빠른 시작

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

맞춤형 도구 엔드포인트

Google은 또한 더 나은 도구 성능을 위한 전용 엔드포인트를 출시했습니다:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

함수 호출(function calling) 및 도구 사용에 크게 의존하는 에이전트를 구축할 때 이 엔드포인트를 사용하십시오.

이번 발표의 의미

뜨거워지는 추론 경쟁

13일 동안 세 개의 프런티어 모델이 출시되었습니다:

2월 6일: Claude Opus 4.6 (Anthropic)

2월 17일: Claude Sonnet 4.6 (Anthropic)

2월 19일: Gemini 3.1 Pro (Google)

각 모델은 서로 다른 영역에서 우위를 주장하고 있습니다. 모델 시장이 세분화되고 있으며, 더 이상 하나의 모델이 모든 것을 지배하지 않습니다.

저렴한 가격으로 제공되는 업계 최고 수준의 추론

코딩 능력 동등 수준 도달

부족한 부분: 컴퓨터 사용 능력

제품을 구축하는 개발자를 위한 제언

실질적인 시사점:

가장 저렴한 추론: 세션당 $0.44 (Sonnet $0.60, GPT-5.2 $0.80 대비)

과학/분석 작업에 최적: 94.3% GPQA Diamond는 현재 사용 가능한 최고 점수

코딩 경쟁력 확보: 80.6% SWE-bench로 Claude와의 격차를 좁힘

멀티모달 우위: Claude나 GPT가 따라오지 못하는 네이티브 비디오/오디오 처리 능력

프리뷰 상태: 아직 정식 버전(GA)이 아니며, 정식 출시 전까지 개선이 기대됨

출처: