Gemini 3.1 Pro: เจาะลึกการก้าวกระโดดด้านการใช้เหตุผลของ Google
Google เปิดตัว Gemini 3.1 Pro เมื่อวันที่ 19 กุมภาพันธ์ 2026 โดยทำคะแนนได้ 77.1% ใน ARC-AGI-2 ซึ่งสูงกว่า Gemini 3 Pro มากกว่าสองเท่า พบกับรายละเอียดคะแนน Benchmark ทั้งหมด, ราคา ($2/$12 ต่อล้านโทเคน), ความพร้อมในการใช้งาน และความหมายของสิ่งนี้สำหรับเหล่านักพัฒนา
TL;DR
Google เปิดตัว Gemini 3.1 Pro (preview) เมื่อวันที่ 19 กุมภาพันธ์ 2026 โดยมีตัวเลขที่สำคัญดังนี้:
- ARC-AGI-2: 77.1% — มากกว่า Gemini 3 Pro (31.1%) ถึงสองเท่า และชนะทั้ง Opus 4.6 (68.8%) และ GPT-5.2 (52.9%)
- GPQA Diamond: 94.3% — เป็นผู้นำในทุกโมเดลด้านวิทยาศาสตร์ระดับบัณฑิตศึกษา
- SWE-bench: 80.6% — ทัดเทียมกับ Opus 4.6 (80.8%) ในด้านการเขียนโค้ด
- ราคา: $2/$12 ต่อล้าน (M) โทเคน — เป็น frontier model ที่ราคาถูกที่สุด
- 1M token context — ไม่เปลี่ยนแปลงจาก Gemini 3 Pro
- เป็นผู้นำใน 13 จาก 16 เกณฑ์มาตรฐาน (benchmarks) ที่ประเมินโดย Google
- พร้อมใช้งานแล้วในเวอร์ชัน preview: AI Studio, Vertex AI, Gemini CLI, แอป Gemini
สิ่งที่ Google ประกาศ
เมื่อวันที่ 19 กุมภาพันธ์ 2026 Google ได้เปิดตัว Gemini 3.1 Pro ซึ่งเป็นเวอร์ชันย่อย ".1" ครั้งแรกในการกำหนดเลขเวอร์ชันของโมเดล โดยพัฒนาต่อยอดมาจาก Gemini 3 Pro (พฤศจิกายน 2025) ด้วยการรวมเทคนิคจากซีรีส์ Gemini 3 Deep Think เข้าสู่โมเดลที่เข้าถึงได้ง่ายขึ้นและทำงานได้รวดเร็วขึ้น
บล็อกของ Google อธิบายว่ามันถูกออกแบบมาสำหรับ "งานที่คำตอบแบบง่ายๆ นั้นไม่เพียงพอ" เช่น การใช้เหตุผลหลายขั้นตอนที่ซับซ้อน (multi-step reasoning), การสังเคราะห์ข้อมูล และเวิร์กโฟลว์ของ agent
ตัวเลขที่เป็นพาดหัวข่าวคือ: 77.1% บน ARC-AGI-2 ซึ่งเป็นเกณฑ์มาตรฐานสำหรับการใช้เหตุผลเชิงนามธรรมในสถานการณ์ใหม่ (novel abstract reasoning) ซึ่งสูงกว่าคะแนน 31.1% ของ Gemini 3 Pro ถึงสองเท่า และนำหน้าทั้ง Opus 4.6 (68.8%) และ GPT-5.2 (52.9%) อย่างชัดเจน ทาง VentureBeat เรียกสิ่งนี้ว่า "Deep Think Mini ที่สามารถปรับระดับการใช้เหตุผลได้ตามต้องการ"
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
รายละเอียดคะแนน Benchmark ทั้งหมด
จุดที่ Gemini 3.1 Pro เป็นผู้นำ (13 จาก 16 เกณฑ์มาตรฐาน)
| เกณฑ์มาตรฐาน | สิ่งที่ทดสอบ | Gemini 3.1 Pro | คู่แข่งที่ทำได้ดีที่สุด |
|---|---|---|---|
| ARC-AGI-2 | การใช้เหตุผลในโจทย์ใหม่ | 77.1% | Opus 4.6: 68.8% |
| GPQA Diamond | วิทยาศาสตร์ระดับสูง | 94.3% | GPT-5.2: 92.4% |
| BrowseComp | การค้นหาเว็บโดย Agent | 85.9% | Opus 4.6: 84.0% |
| Terminal-Bench 2.0 | การเขียนโค้ดผ่าน Terminal | 68.5% | Opus 4.6: 65.4% |
| APEX-Agents | ความสามารถของ Agent | 33.5% | Opus 4.6: 29.8% |
| MCP Atlas | การใช้เครื่องมือ (Tool use) | 69.2% | — |
| t2-bench Telecom | เฉพาะทางโดเมน | 99.3% | — |
| SWE-bench Verified | การเขียนโค้ด | 80.6% | Opus 4.6: 80.8% |
| MRCR v2 | บริบทขนาดยาว (Long-context) | 84.9% | Sonnet 4.6: 84.9% (เสมอ) |
จุดที่คู่แข่งยังคงชนะ
| เกณฑ์มาตรฐาน | สิ่งที่ทดสอบ | ผู้ชนะ | Gemini 3.1 Pro |
|---|---|---|---|
| GDPval-AA (Elo) | งานสำนักงาน | Sonnet 4.6: 1633 | ไม่เปิดเผย |
| Terminal-Bench 2.0 | การเขียนโค้ด Terminal หนักๆ | GPT-5.3-Codex: 77.3% | 68.5% |
| SWE-Bench Pro | การเขียนโค้ดขั้นสูง | GPT-5.3-Codex: 56.8% | ไม่เปิดเผย |
| OSWorld | การสั่งงานคอมพิวเตอร์ | Sonnet 4.6: 72.5% | ไม่ได้ทดสอบ |
การก้าวกระโดดด้านการใช้เหตุผลในมุมกว้าง
ARC-AGI-2 วัดความสามารถของโมเดลในการแก้ปัญหาที่ไม่เคยพบเห็นมาก่อน ซึ่งเป็นการใช้เหตุผลเชิงนามธรรมล้วนๆ ไม่ใช่การจับคู่รูปแบบจากข้อมูลการฝึกสอน นี่คือความเร็วในการพัฒนาของ Gemini:
| โมเดล | ARC-AGI-2 | วันที่ |
|---|---|---|
| Gemini 3 Pro | 31.1% | พ.ย. 2025 |
| GPT-5.2 | 52.9% | ธ.ค. 2025 |
| Claude Opus 4.6 | 68.8% | ก.พ. 2026 |
| Gemini 3.1 Pro | 77.1% | ก.พ. 2026 |
Gemini 3.1 Pro พุ่งจาก 31.1% เป็น 77.1% ในเวอร์ชันเดียว — คิดเป็นการพัฒนาขึ้นถึง 148% ซึ่งมาจากการผสานเทคนิคการใช้เหตุผลขั้นสูงของ Deep Think เข้าไปในโมเดลพื้นฐาน
สิ่งที่เปลี่ยนแปลงไปเมื่อเทียบกับ Gemini 3 Pro
1. การรวมเทคโนโลยี Deep Think
Gemini 3 Deep Think เคยเป็นโมเดลแยกต่างหากที่ทำงานช้ากว่าและปรับแต่งมาเพื่อการใช้เหตุผลที่ซับซ้อน แต่ Gemini 3.1 Pro ได้ใส่เทคนิคเหล่านั้นลงในโมเดลมาตรฐาน พร้อมทั้งสามารถปรับความลึกของการใช้เหตุผลได้ คุณจะได้รับความสามารถในการใช้เหตุผลระดับเดียวกับ Deep Think โดยไม่มีความหน่วง (latency) ของ Deep Think ในงานส่วนใหญ่
2. การใช้เหตุผลที่ดีขึ้นอย่างมาก
ตัวเลขบ่งบอกด้วยตัวเอง:
| เกณฑ์มาตรฐาน | Gemini 3 Pro | Gemini 3.1 Pro | การพัฒนา |
|---|---|---|---|
| ARC-AGI-2 | 31.1% | 77.1% | +148% |
| GPQA Diamond | ~88% | 94.3% | +7% |
| APEX-Agents | 18.4% | 33.5% | +82% |
3. ประสิทธิภาพของ Agent ที่ดีขึ้น
คะแนนจาก APEX-Agents (33.5%) และ MCP Atlas (69.2%) แสดงให้เห็นว่า Gemini 3.1 Pro มีความสามารถในฐานะ autonomous agent มากขึ้นอย่างมีนัยสำคัญ ทั้งการใช้เครื่องมือ, การวางแผนหลายขั้นตอน และการแก้ไขข้อผิดพลาดด้วยตนเอง (self-correction) ล้วนได้รับการปรับปรุงทั้งหมด
4. ยังคงความแข็งแกร่งด้าน Multimodal
Gemini 3.1 Pro ยังคงรักษาข้อได้เปรียบหลักของ Gemini ไว้ นั่นคือการประมวลผล multimodal แบบ native ทั้งข้อความ, รูปภาพ, เสียง และวิดีโอ ภายในบริบทเดียว ไม่มีโมเดลระดับแนวหน้าเจ้าอื่นที่ทำได้กว้างขวางขนาดนี้ในระดับราคานี้
ราคา
ราคาเท่าเดิมกับ Gemini 3 Pro — เป็นการอัปเกรดให้ฟรี:
| ขนาดบริบท (Context Size) | Input (ต่อล้านโทเคน) | Output (ต่อล้านโทเคน) |
|---|---|---|
| ≤200K tokens | $2.00 | $12.00 |
| >200K tokens | $4.00 | $18.00 |
เปรียบเทียบกับคู่แข่ง
| โมเดล | Input | Output | ต้นทุนเปรียบเทียบ |
|---|---|---|---|
| Gemini 3.1 Pro | $2.00 | $12.00 | 1x |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 1.5x |
| GPT-5.2 | $5.00 | $15.00 | 2.0x (input) |
| Claude Opus 4.6 | $15.00 | $75.00 | 7.5x |
Gemini 3.1 Pro เป็น frontier model ที่ถูกที่สุด โดยถูกกว่า Sonnet 4.6 ถึง 33% ในส่วนของ input และถูกกว่า 20% สำหรับ output
ต้นทุนต่อเซสชัน (100K in + 20K out)
| โมเดล | ต้นทุน |
|---|---|
| Gemini 3.1 Pro | $0.44 |
| Claude Sonnet 4.6 | $0.60 |
| GPT-5.2 | $0.80 |
| Claude Opus 4.6 | $3.00 |
การเพิ่มประสิทธิภาพต้นทุนเพิ่มเติม:
- Batch mode: ส่วนลด 50% ($0.22/เซสชัน)
- Context caching: การอ่านอินพุตที่แคชไว้ (cached input reads) มีค่าใช้จ่ายเพียง 10% ของราคาพื้นฐาน
ความพร้อมในการใช้งาน
ใช้งานได้ที่ไหนบ้าง
| แพลตฟอร์ม | สถานะ | Model ID |
|---|---|---|
| Gemini App (ผู้ใช้งานทั่วไป) | กำลังทยอยเปิดตัว | เลือกอัตโนมัติ |
| Google AI Studio | พร้อมใช้งานแล้ว | gemini-3.1-pro-preview |
| Vertex AI | พร้อมใช้งานแล้ว | gemini-3.1-pro-preview |
| Gemini API | พร้อมใช้งานแล้ว | gemini-3.1-pro-preview |
| Gemini CLI | พร้อมใช้งานแล้ว | gemini-3.1-pro-preview |
| Antigravity | พร้อมใช้งานแล้ว | เลือกอัตโนมัติ |
| Android Studio | พร้อมใช้งานแล้ว | เลือกอัตโนมัติ |
| GitHub Copilot | Public preview | เลือกได้ |
| NotebookLM | สมาชิก Pro/Ultra | เลือกอัตโนมัติ |
API Quick Start
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")
response = model.generate_content("Your prompt here")
print(response.text)
Custom Tools Endpoint
Google ยังได้เปิดตัว endpoint เฉพาะเพื่อให้เครื่องมือต่างๆ ทำงานได้ดีขึ้น:
model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")
ใช้ endpoint นี้เมื่อสร้าง agent ที่ต้องพึ่งพาการเรียกใช้ฟังก์ชัน (function calling) และการใช้เครื่องมืออย่างหนัก
ความหมายของสิ่งนี้
การแข่งขันด้านการใช้เหตุผลเริ่มดุเดือด
มีการเปิดตัว frontier model ถึงสามรุ่นภายในเวลาเพียง 13 วัน:
- 6 ก.พ.: Claude Opus 4.6 (Anthropic)
- 17 ก.พ.: Claude Sonnet 4.6 (Anthropic)
- 19 ก.พ.: Gemini 3.1 Pro (Google)
แต่ละรุ่นต่างอ้างความเป็นผู้นำในด้านต่างๆ ภาพรวมของโมเดลกำลังเกิดการแบ่งส่วน (fragmenting) — ไม่มีโมเดลเดียวที่ครองความเป็นหนึ่งในทุกด้านอีกต่อไป
การใช้เหตุผลที่ดีที่สุดในกลุ่มในราคาประหยัด
คะแนน 77.1% ของ Gemini 3.1 Pro ใน ARC-AGI-2 เป็นคะแนนการใช้เหตุผลที่สูงที่สุดที่มีให้ใช้งานในปัจจุบัน ในราคาที่ต่ำที่สุด ($2/$12) สำหรับงานที่ต้องการการแก้ปัญหาใหม่ๆ, การใช้เหตุผลเชิงนามธรรม หรือการวิเคราะห์ทางวิทยาศาสตร์ นี่คือตัวเลือกที่ชัดเจนที่สุด
ความสามารถด้านการเขียนโค้ดที่ทัดเทียมกัน
ด้วยคะแนน 80.6% ใน SWE-bench (เทียบกับ 80.8% ของ Opus 4.6 และ 79.6% ของ Sonnet 4.6) ทำให้ Gemini 3.1 Pro ก้าวขึ้นมาแข่งขันในด้านการเขียนโค้ดได้เป็นครั้งแรก โดยก่อนหน้านี้โมเดล Gemini มักจะตามหลัง Claude ในเกณฑ์มาตรฐานนี้อย่างมาก
ส่วนที่ยังขาดหายไป: Computer Use
Gemini 3.1 Pro ไม่ได้มีคะแนนทดสอบใน OSWorld (การสั่งงานคอมพิวเตอร์) ซึ่ง Claude Sonnet 4.6 เป็นผู้นำอยู่ที่ 72.5% ในความสามารถนี้ หากเวิร์กโฟลว์ของคุณเกี่ยวข้องกับการทำงานอัตโนมัติบนเบราว์เซอร์, การกรอกฟอร์ม หรือการควบคุมเดสก์ท็อป Claude ยังคงเป็นตัวเลือกเดียวที่ใช้งานได้จริง
สำหรับนักพัฒนาที่กำลังสร้างผลิตภัณฑ์
นัยสำคัญในทางปฏิบัติ:
- การใช้เหตุผลที่ถูกที่สุด: $0.44/เซสชัน เทียบกับ $0.60 (Sonnet) และ $0.80 (GPT-5.2)
- ดีที่สุดสำหรับงานวิทยาศาสตร์/การวิเคราะห์: 94.3% ใน GPQA Diamond คือคะแนนที่สูงที่สุดในปัจจุบัน
- แข่งขันได้ในการเขียนโค้ด: 80.6% ใน SWE-bench ช่วยลดช่องว่างกับ Claude
- ความได้เปรียบด้าน Multimodal: การประมวลผลวิดีโอ/เสียงแบบ native ที่ Claude และ GPT ยังตามไม่ทัน
- สถานะ Preview: ยังไม่ใช่ GA (General Availability) — คาดว่าจะมีการปรับปรุงเพิ่มเติมก่อนเปิดตัวจริง
กำลังสร้างโปรเจกต์ด้วย AI อยู่ใช่ไหม? Y Build ผสานรวมเข้ากับเครื่องมือ AI ที่คุณชื่นชอบสำหรับการพัฒนา จากนั้นจัดการเรื่องการ deploy, วิดีโอผลิตภัณฑ์ Demo Cut, AI SEO และการวิเคราะห์ — ครบวงจรตั้งแต่โค้ดไปจนถึงการเติบโต เริ่มใช้งานฟรี.
แหล่งอ้างอิง:
- Google Blog: Gemini 3.1 Pro announcement
- Google DeepMind: Gemini 3.1 Pro Model Card
- 9to5Google: Gemini 3.1 Pro for complex problem-solving
- VentureBeat: Gemini 3.1 Pro first impressions
- MarkTechPost: Gemini 3.1 Pro 77.1% ARC-AGI-2
- OfficeChai: Gemini 3.1 Pro Benchmarks
- GitHub Blog: Gemini 3.1 Pro in GitHub Copilot
- The Decoder: Gemini 3.1 Pro reasoning
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.