Gemini 3.1 Pro: เจาะลึกการก้าวกระโดดด้านการใช้เหตุผลของ Google

TL;DR

Google เปิดตัว Gemini 3.1 Pro (preview) เมื่อวันที่ 19 กุมภาพันธ์ 2026 โดยมีตัวเลขที่สำคัญดังนี้:

ARC-AGI-2: 77.1% — มากกว่า Gemini 3 Pro (31.1%) ถึงสองเท่า และชนะทั้ง Opus 4.6 (68.8%) และ GPT-5.2 (52.9%)
GPQA Diamond: 94.3% — เป็นผู้นำในทุกโมเดลด้านวิทยาศาสตร์ระดับบัณฑิตศึกษา
SWE-bench: 80.6% — ทัดเทียมกับ Opus 4.6 (80.8%) ในด้านการเขียนโค้ด
ราคา: $2/$12 ต่อล้าน (M) โทเคน — เป็น frontier model ที่ราคาถูกที่สุด
1M token context — ไม่เปลี่ยนแปลงจาก Gemini 3 Pro
เป็นผู้นำใน 13 จาก 16 เกณฑ์มาตรฐาน (benchmarks) ที่ประเมินโดย Google
พร้อมใช้งานแล้วในเวอร์ชัน preview: AI Studio, Vertex AI, Gemini CLI, แอป Gemini

สิ่งที่ Google ประกาศ

เมื่อวันที่ 19 กุมภาพันธ์ 2026 Google ได้เปิดตัว Gemini 3.1 Pro ซึ่งเป็นเวอร์ชันย่อย ".1" ครั้งแรกในการกำหนดเลขเวอร์ชันของโมเดล โดยพัฒนาต่อยอดมาจาก Gemini 3 Pro (พฤศจิกายน 2025) ด้วยการรวมเทคนิคจากซีรีส์ Gemini 3 Deep Think เข้าสู่โมเดลที่เข้าถึงได้ง่ายขึ้นและทำงานได้รวดเร็วขึ้น

บล็อกของ Google อธิบายว่ามันถูกออกแบบมาสำหรับ "งานที่คำตอบแบบง่ายๆ นั้นไม่เพียงพอ" เช่น การใช้เหตุผลหลายขั้นตอนที่ซับซ้อน (multi-step reasoning), การสังเคราะห์ข้อมูล และเวิร์กโฟลว์ของ agent

ตัวเลขที่เป็นพาดหัวข่าวคือ: 77.1% บน ARC-AGI-2 ซึ่งเป็นเกณฑ์มาตรฐานสำหรับการใช้เหตุผลเชิงนามธรรมในสถานการณ์ใหม่ (novel abstract reasoning) ซึ่งสูงกว่าคะแนน 31.1% ของ Gemini 3 Pro ถึงสองเท่า และนำหน้าทั้ง Opus 4.6 (68.8%) และ GPT-5.2 (52.9%) อย่างชัดเจน ทาง VentureBeat เรียกสิ่งนี้ว่า "Deep Think Mini ที่สามารถปรับระดับการใช้เหตุผลได้ตามต้องการ"

รายละเอียดคะแนน Benchmark ทั้งหมด

จุดที่ Gemini 3.1 Pro เป็นผู้นำ (13 จาก 16 เกณฑ์มาตรฐาน)

เกณฑ์มาตรฐาน	สิ่งที่ทดสอบ	Gemini 3.1 Pro	คู่แข่งที่ทำได้ดีที่สุด
ARC-AGI-2	การใช้เหตุผลในโจทย์ใหม่	77.1%	Opus 4.6: 68.8%
GPQA Diamond	วิทยาศาสตร์ระดับสูง	94.3%	GPT-5.2: 92.4%
BrowseComp	การค้นหาเว็บโดย Agent	85.9%	Opus 4.6: 84.0%
Terminal-Bench 2.0	การเขียนโค้ดผ่าน Terminal	68.5%	Opus 4.6: 65.4%
APEX-Agents	ความสามารถของ Agent	33.5%	Opus 4.6: 29.8%
MCP Atlas	การใช้เครื่องมือ (Tool use)	69.2%	—
t2-bench Telecom	เฉพาะทางโดเมน	99.3%	—
SWE-bench Verified	การเขียนโค้ด	80.6%	Opus 4.6: 80.8%
MRCR v2	บริบทขนาดยาว (Long-context)	84.9%	Sonnet 4.6: 84.9% (เสมอ)

จุดที่คู่แข่งยังคงชนะ

เกณฑ์มาตรฐาน	สิ่งที่ทดสอบ	ผู้ชนะ	Gemini 3.1 Pro
GDPval-AA (Elo)	งานสำนักงาน	Sonnet 4.6: 1633	ไม่เปิดเผย
Terminal-Bench 2.0	การเขียนโค้ด Terminal หนักๆ	GPT-5.3-Codex: 77.3%	68.5%
SWE-Bench Pro	การเขียนโค้ดขั้นสูง	GPT-5.3-Codex: 56.8%	ไม่เปิดเผย
OSWorld	การสั่งงานคอมพิวเตอร์	Sonnet 4.6: 72.5%	ไม่ได้ทดสอบ

การก้าวกระโดดด้านการใช้เหตุผลในมุมกว้าง

ARC-AGI-2 วัดความสามารถของโมเดลในการแก้ปัญหาที่ไม่เคยพบเห็นมาก่อน ซึ่งเป็นการใช้เหตุผลเชิงนามธรรมล้วนๆ ไม่ใช่การจับคู่รูปแบบจากข้อมูลการฝึกสอน นี่คือความเร็วในการพัฒนาของ Gemini:

โมเดล	ARC-AGI-2	วันที่
Gemini 3 Pro	31.1%	พ.ย. 2025
GPT-5.2	52.9%	ธ.ค. 2025
Claude Opus 4.6	68.8%	ก.พ. 2026
Gemini 3.1 Pro	77.1%	ก.พ. 2026

Gemini 3.1 Pro พุ่งจาก 31.1% เป็น 77.1% ในเวอร์ชันเดียว — คิดเป็นการพัฒนาขึ้นถึง 148% ซึ่งมาจากการผสานเทคนิคการใช้เหตุผลขั้นสูงของ Deep Think เข้าไปในโมเดลพื้นฐาน

สิ่งที่เปลี่ยนแปลงไปเมื่อเทียบกับ Gemini 3 Pro

1. การรวมเทคโนโลยี Deep Think

Gemini 3 Deep Think เคยเป็นโมเดลแยกต่างหากที่ทำงานช้ากว่าและปรับแต่งมาเพื่อการใช้เหตุผลที่ซับซ้อน แต่ Gemini 3.1 Pro ได้ใส่เทคนิคเหล่านั้นลงในโมเดลมาตรฐาน พร้อมทั้งสามารถปรับความลึกของการใช้เหตุผลได้ คุณจะได้รับความสามารถในการใช้เหตุผลระดับเดียวกับ Deep Think โดยไม่มีความหน่วง (latency) ของ Deep Think ในงานส่วนใหญ่

2. การใช้เหตุผลที่ดีขึ้นอย่างมาก

ตัวเลขบ่งบอกด้วยตัวเอง:

เกณฑ์มาตรฐาน	Gemini 3 Pro	Gemini 3.1 Pro	การพัฒนา
ARC-AGI-2	31.1%	77.1%	+148%
GPQA Diamond	~88%	94.3%	+7%
APEX-Agents	18.4%	33.5%	+82%

3. ประสิทธิภาพของ Agent ที่ดีขึ้น

คะแนนจาก APEX-Agents (33.5%) และ MCP Atlas (69.2%) แสดงให้เห็นว่า Gemini 3.1 Pro มีความสามารถในฐานะ autonomous agent มากขึ้นอย่างมีนัยสำคัญ ทั้งการใช้เครื่องมือ, การวางแผนหลายขั้นตอน และการแก้ไขข้อผิดพลาดด้วยตนเอง (self-correction) ล้วนได้รับการปรับปรุงทั้งหมด

4. ยังคงความแข็งแกร่งด้าน Multimodal

Gemini 3.1 Pro ยังคงรักษาข้อได้เปรียบหลักของ Gemini ไว้ นั่นคือการประมวลผล multimodal แบบ native ทั้งข้อความ, รูปภาพ, เสียง และวิดีโอ ภายในบริบทเดียว ไม่มีโมเดลระดับแนวหน้าเจ้าอื่นที่ทำได้กว้างขวางขนาดนี้ในระดับราคานี้

ราคา

ราคาเท่าเดิมกับ Gemini 3 Pro — เป็นการอัปเกรดให้ฟรี:

ขนาดบริบท (Context Size)	Input (ต่อล้านโทเคน)	Output (ต่อล้านโทเคน)
≤200K tokens	$2.00	$12.00
>200K tokens	$4.00	$18.00

เปรียบเทียบกับคู่แข่ง

โมเดล	Input	Output	ต้นทุนเปรียบเทียบ
Gemini 3.1 Pro	$2.00	$12.00	1x
Claude Sonnet 4.6	$3.00	$15.00	1.5x
GPT-5.2	$5.00	$15.00	2.0x (input)
Claude Opus 4.6	$15.00	$75.00	7.5x

Gemini 3.1 Pro เป็น frontier model ที่ถูกที่สุด โดยถูกกว่า Sonnet 4.6 ถึง 33% ในส่วนของ input และถูกกว่า 20% สำหรับ output

ต้นทุนต่อเซสชัน (100K in + 20K out)

โมเดล	ต้นทุน
Gemini 3.1 Pro	$0.44
Claude Sonnet 4.6	$0.60
GPT-5.2	$0.80
Claude Opus 4.6	$3.00

การเพิ่มประสิทธิภาพต้นทุนเพิ่มเติม:

Batch mode: ส่วนลด 50% ($0.22/เซสชัน)

Context caching: การอ่านอินพุตที่แคชไว้ (cached input reads) มีค่าใช้จ่ายเพียง 10% ของราคาพื้นฐาน

ความพร้อมในการใช้งาน

ใช้งานได้ที่ไหนบ้าง

แพลตฟอร์ม	สถานะ	Model ID
Gemini App (ผู้ใช้งานทั่วไป)	กำลังทยอยเปิดตัว	เลือกอัตโนมัติ
Google AI Studio	พร้อมใช้งานแล้ว	`gemini-3.1-pro-preview`
Vertex AI	พร้อมใช้งานแล้ว	`gemini-3.1-pro-preview`
Gemini API	พร้อมใช้งานแล้ว	`gemini-3.1-pro-preview`
Gemini CLI	พร้อมใช้งานแล้ว	`gemini-3.1-pro-preview`
Antigravity	พร้อมใช้งานแล้ว	เลือกอัตโนมัติ
Android Studio	พร้อมใช้งานแล้ว	เลือกอัตโนมัติ
GitHub Copilot	Public preview	เลือกได้
NotebookLM	สมาชิก Pro/Ultra	เลือกอัตโนมัติ

API Quick Start

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Custom Tools Endpoint

Google ยังได้เปิดตัว endpoint เฉพาะเพื่อให้เครื่องมือต่างๆ ทำงานได้ดีขึ้น:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

ใช้ endpoint นี้เมื่อสร้าง agent ที่ต้องพึ่งพาการเรียกใช้ฟังก์ชัน (function calling) และการใช้เครื่องมืออย่างหนัก

ความหมายของสิ่งนี้

การแข่งขันด้านการใช้เหตุผลเริ่มดุเดือด

มีการเปิดตัว frontier model ถึงสามรุ่นภายในเวลาเพียง 13 วัน:

6 ก.พ.: Claude Opus 4.6 (Anthropic)

17 ก.พ.: Claude Sonnet 4.6 (Anthropic)

19 ก.พ.: Gemini 3.1 Pro (Google)

แต่ละรุ่นต่างอ้างความเป็นผู้นำในด้านต่างๆ ภาพรวมของโมเดลกำลังเกิดการแบ่งส่วน (fragmenting) — ไม่มีโมเดลเดียวที่ครองความเป็นหนึ่งในทุกด้านอีกต่อไป

การใช้เหตุผลที่ดีที่สุดในกลุ่มในราคาประหยัด

คะแนน 77.1% ของ Gemini 3.1 Pro ใน ARC-AGI-2 เป็นคะแนนการใช้เหตุผลที่สูงที่สุดที่มีให้ใช้งานในปัจจุบัน ในราคาที่ต่ำที่สุด ($2/$12) สำหรับงานที่ต้องการการแก้ปัญหาใหม่ๆ, การใช้เหตุผลเชิงนามธรรม หรือการวิเคราะห์ทางวิทยาศาสตร์ นี่คือตัวเลือกที่ชัดเจนที่สุด

ความสามารถด้านการเขียนโค้ดที่ทัดเทียมกัน

ด้วยคะแนน 80.6% ใน SWE-bench (เทียบกับ 80.8% ของ Opus 4.6 และ 79.6% ของ Sonnet 4.6) ทำให้ Gemini 3.1 Pro ก้าวขึ้นมาแข่งขันในด้านการเขียนโค้ดได้เป็นครั้งแรก โดยก่อนหน้านี้โมเดล Gemini มักจะตามหลัง Claude ในเกณฑ์มาตรฐานนี้อย่างมาก

ส่วนที่ยังขาดหายไป: Computer Use

Gemini 3.1 Pro ไม่ได้มีคะแนนทดสอบใน OSWorld (การสั่งงานคอมพิวเตอร์) ซึ่ง Claude Sonnet 4.6 เป็นผู้นำอยู่ที่ 72.5% ในความสามารถนี้ หากเวิร์กโฟลว์ของคุณเกี่ยวข้องกับการทำงานอัตโนมัติบนเบราว์เซอร์, การกรอกฟอร์ม หรือการควบคุมเดสก์ท็อป Claude ยังคงเป็นตัวเลือกเดียวที่ใช้งานได้จริง

สำหรับนักพัฒนาที่กำลังสร้างผลิตภัณฑ์

นัยสำคัญในทางปฏิบัติ:

การใช้เหตุผลที่ถูกที่สุด: $0.44/เซสชัน เทียบกับ $0.60 (Sonnet) และ $0.80 (GPT-5.2)

ดีที่สุดสำหรับงานวิทยาศาสตร์/การวิเคราะห์: 94.3% ใน GPQA Diamond คือคะแนนที่สูงที่สุดในปัจจุบัน

แข่งขันได้ในการเขียนโค้ด: 80.6% ใน SWE-bench ช่วยลดช่องว่างกับ Claude

ความได้เปรียบด้าน Multimodal: การประมวลผลวิดีโอ/เสียงแบบ native ที่ Claude และ GPT ยังตามไม่ทัน

สถานะ Preview: ยังไม่ใช่ GA (General Availability) — คาดว่าจะมีการปรับปรุงเพิ่มเติมก่อนเปิดตัวจริง

กำลังสร้างโปรเจกต์ด้วย AI อยู่ใช่ไหม? Y Build ผสานรวมเข้ากับเครื่องมือ AI ที่คุณชื่นชอบสำหรับการพัฒนา จากนั้นจัดการเรื่องการ deploy, วิดีโอผลิตภัณฑ์ Demo Cut, AI SEO และการวิเคราะห์ — ครบวงจรตั้งแต่โค้ดไปจนถึงการเติบโต เริ่มใช้งานฟรี.

แหล่งอ้างอิง:

TL;DR

ARC-AGI-2: 77.1% — มากกว่า Gemini 3 Pro (31.1%) ถึงสองเท่า และชนะทั้ง Opus 4.6 (68.8%) และ GPT-5.2 (52.9%)
GPQA Diamond: 94.3% — เป็นผู้นำในทุกโมเดลด้านวิทยาศาสตร์ระดับบัณฑิตศึกษา
SWE-bench: 80.6% — ทัดเทียมกับ Opus 4.6 (80.8%) ในด้านการเขียนโค้ด
ราคา: $2/$12 ต่อล้าน (M) โทเคน — เป็น frontier model ที่ราคาถูกที่สุด
1M token context — ไม่เปลี่ยนแปลงจาก Gemini 3 Pro
เป็นผู้นำใน 13 จาก 16 เกณฑ์มาตรฐาน (benchmarks) ที่ประเมินโดย Google
พร้อมใช้งานแล้วในเวอร์ชัน preview: AI Studio, Vertex AI, Gemini CLI, แอป Gemini

สิ่งที่ Google ประกาศ

รายละเอียดคะแนน Benchmark ทั้งหมด

จุดที่ Gemini 3.1 Pro เป็นผู้นำ (13 จาก 16 เกณฑ์มาตรฐาน)

เกณฑ์มาตรฐาน	สิ่งที่ทดสอบ	Gemini 3.1 Pro	คู่แข่งที่ทำได้ดีที่สุด
ARC-AGI-2	การใช้เหตุผลในโจทย์ใหม่	77.1%	Opus 4.6: 68.8%
GPQA Diamond	วิทยาศาสตร์ระดับสูง	94.3%	GPT-5.2: 92.4%
BrowseComp	การค้นหาเว็บโดย Agent	85.9%	Opus 4.6: 84.0%
Terminal-Bench 2.0	การเขียนโค้ดผ่าน Terminal	68.5%	Opus 4.6: 65.4%
APEX-Agents	ความสามารถของ Agent	33.5%	Opus 4.6: 29.8%
MCP Atlas	การใช้เครื่องมือ (Tool use)	69.2%	—
t2-bench Telecom	เฉพาะทางโดเมน	99.3%	—
SWE-bench Verified	การเขียนโค้ด	80.6%	Opus 4.6: 80.8%
MRCR v2	บริบทขนาดยาว (Long-context)	84.9%	Sonnet 4.6: 84.9% (เสมอ)

จุดที่คู่แข่งยังคงชนะ

เกณฑ์มาตรฐาน	สิ่งที่ทดสอบ	ผู้ชนะ	Gemini 3.1 Pro
GDPval-AA (Elo)	งานสำนักงาน	Sonnet 4.6: 1633	ไม่เปิดเผย
Terminal-Bench 2.0	การเขียนโค้ด Terminal หนักๆ	GPT-5.3-Codex: 77.3%	68.5%
SWE-Bench Pro	การเขียนโค้ดขั้นสูง	GPT-5.3-Codex: 56.8%	ไม่เปิดเผย
OSWorld	การสั่งงานคอมพิวเตอร์	Sonnet 4.6: 72.5%	ไม่ได้ทดสอบ

การก้าวกระโดดด้านการใช้เหตุผลในมุมกว้าง

โมเดล	ARC-AGI-2	วันที่
Gemini 3 Pro	31.1%	พ.ย. 2025
GPT-5.2	52.9%	ธ.ค. 2025
Claude Opus 4.6	68.8%	ก.พ. 2026
Gemini 3.1 Pro	77.1%	ก.พ. 2026

สิ่งที่เปลี่ยนแปลงไปเมื่อเทียบกับ Gemini 3 Pro

1. การรวมเทคโนโลยี Deep Think

2. การใช้เหตุผลที่ดีขึ้นอย่างมาก

ตัวเลขบ่งบอกด้วยตัวเอง:

เกณฑ์มาตรฐาน	Gemini 3 Pro	Gemini 3.1 Pro	การพัฒนา
ARC-AGI-2	31.1%	77.1%	+148%
GPQA Diamond	~88%	94.3%	+7%
APEX-Agents	18.4%	33.5%	+82%

3. ประสิทธิภาพของ Agent ที่ดีขึ้น

4. ยังคงความแข็งแกร่งด้าน Multimodal

ราคา

ราคาเท่าเดิมกับ Gemini 3 Pro — เป็นการอัปเกรดให้ฟรี:

ขนาดบริบท (Context Size)	Input (ต่อล้านโทเคน)	Output (ต่อล้านโทเคน)
≤200K tokens	$2.00	$12.00
>200K tokens	$4.00	$18.00

เปรียบเทียบกับคู่แข่ง

โมเดล	Input	Output	ต้นทุนเปรียบเทียบ
Gemini 3.1 Pro	$2.00	$12.00	1x
Claude Sonnet 4.6	$3.00	$15.00	1.5x
GPT-5.2	$5.00	$15.00	2.0x (input)
Claude Opus 4.6	$15.00	$75.00	7.5x

ต้นทุนต่อเซสชัน (100K in + 20K out)

โมเดล	ต้นทุน
Gemini 3.1 Pro	$0.44
Claude Sonnet 4.6	$0.60
GPT-5.2	$0.80
Claude Opus 4.6	$3.00

การเพิ่มประสิทธิภาพต้นทุนเพิ่มเติม:

Batch mode: ส่วนลด 50% ($0.22/เซสชัน)

Context caching: การอ่านอินพุตที่แคชไว้ (cached input reads) มีค่าใช้จ่ายเพียง 10% ของราคาพื้นฐาน

ความพร้อมในการใช้งาน

ใช้งานได้ที่ไหนบ้าง

แพลตฟอร์ม	สถานะ	Model ID
Gemini App (ผู้ใช้งานทั่วไป)	กำลังทยอยเปิดตัว	เลือกอัตโนมัติ
Google AI Studio	พร้อมใช้งานแล้ว	`gemini-3.1-pro-preview`
Vertex AI	พร้อมใช้งานแล้ว	`gemini-3.1-pro-preview`
Gemini API	พร้อมใช้งานแล้ว	`gemini-3.1-pro-preview`
Gemini CLI	พร้อมใช้งานแล้ว	`gemini-3.1-pro-preview`
Antigravity	พร้อมใช้งานแล้ว	เลือกอัตโนมัติ
Android Studio	พร้อมใช้งานแล้ว	เลือกอัตโนมัติ
GitHub Copilot	Public preview	เลือกได้
NotebookLM	สมาชิก Pro/Ultra	เลือกอัตโนมัติ

API Quick Start

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Custom Tools Endpoint

Google ยังได้เปิดตัว endpoint เฉพาะเพื่อให้เครื่องมือต่างๆ ทำงานได้ดีขึ้น:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

ความหมายของสิ่งนี้

การแข่งขันด้านการใช้เหตุผลเริ่มดุเดือด

มีการเปิดตัว frontier model ถึงสามรุ่นภายในเวลาเพียง 13 วัน:

6 ก.พ.: Claude Opus 4.6 (Anthropic)

17 ก.พ.: Claude Sonnet 4.6 (Anthropic)

19 ก.พ.: Gemini 3.1 Pro (Google)

การใช้เหตุผลที่ดีที่สุดในกลุ่มในราคาประหยัด

ความสามารถด้านการเขียนโค้ดที่ทัดเทียมกัน

ส่วนที่ยังขาดหายไป: Computer Use

สำหรับนักพัฒนาที่กำลังสร้างผลิตภัณฑ์

นัยสำคัญในทางปฏิบัติ:

การใช้เหตุผลที่ถูกที่สุด: $0.44/เซสชัน เทียบกับ $0.60 (Sonnet) และ $0.80 (GPT-5.2)

ดีที่สุดสำหรับงานวิทยาศาสตร์/การวิเคราะห์: 94.3% ใน GPQA Diamond คือคะแนนที่สูงที่สุดในปัจจุบัน

แข่งขันได้ในการเขียนโค้ด: 80.6% ใน SWE-bench ช่วยลดช่องว่างกับ Claude

ความได้เปรียบด้าน Multimodal: การประมวลผลวิดีโอ/เสียงแบบ native ที่ Claude และ GPT ยังตามไม่ทัน

สถานะ Preview: ยังไม่ใช่ GA (General Availability) — คาดว่าจะมีการปรับปรุงเพิ่มเติมก่อนเปิดตัวจริง

แหล่งอ้างอิง: