รีวิว Grok 4.20: โมเดล Multi-Agent จาก xAI (2026)

Q: API model identifier สำหรับ Grok 4.20 คืออะไร?

Model ID หลักคือ grok-4.20 โดยมีรุ่นย่อยคือ grok-4.20-non-reasoning สำหรับการตอบกลับที่เร็วขึ้นโดยไม่มี chain-of-thought และ grok-4.20-multi-agent สำหรับการจัดการแบบ multi-agent อย่างชัดเจน โดยมี API base URL คือ https://api.x.ai/v1

TL;DR

Grok 4.20	GPT-5.4	Claude Opus 4.6
Coding (SWE-bench Verified)	~72%	57.7% (Pro)	80.8%
Science (GPQA Diamond)	83–88%	92.8%	91.3%
Reasoning (ARC-AGI-2)	15.9%	—	68.8%
Honesty (Omniscience)	78%	—	—
Computer Use (OSWorld)	—	75%	72.5%
Context Window	2M	400K	1M
Input Price	$2/M	$2.50/M	$15/M
Output Price	$6/M	$15/M	$75/M
Architecture	4-agent MoE (~3T)	Dense (undisclosed)	Dense (undisclosed)

สรุปการตัดสินใจ:

โมเดล Frontier ที่คุ้มค่าที่สุดพร้อม context ขนาดมหึมา → Grok 4.20
การเขียนโค้ดที่ดีที่สุด + ความปลอดภัยของ agent → Claude Opus 4.6
การใช้งานคอมพิวเตอร์ + ระบบอัตโนมัติที่ดีที่สุด → GPT-5.4
อัตราการเกิด Hallucination ต่ำที่สุด → Grok 4.20

Grok 4.20 คืออะไร?

Grok 4.20 คือโมเดลเรือธงของ xAI ที่เปิดตัวในเวอร์ชัน public beta เมื่อวันที่ 17 กุมภาพันธ์ 2026 และเปิดใช้งานทั่วไป (general availability) ในเดือนมีนาคม 2026 โดยสร้างขึ้นบนโครงสร้างหลักแบบ Mixture-of-Experts (MoE) ขนาดประมาณ 3 ล้านล้านพารามิเตอร์ ซึ่งเป็นขนาดเดียวกับ Grok 3 และ Grok 4.1 แต่มีการวางโครงสร้างสถาปัตยกรรมแบบ multi-agent รูปแบบใหม่ทับลงไป

คุณสมบัติเด่นคือ: ทุกคำถามที่มีความซับซ้อนเพียงพอจะถูกส่งต่อไปยัง AI agent ที่มีความเชี่ยวชาญเฉพาะทาง 4 ตัว เพื่อทำการถกเถียง (debate), ตรวจสอบข้อเท็จจริง (fact-check) และตรวจสอบความถูกต้องร่วมกัน (cross-verify) ก่อนที่จะส่งคำตอบสุดท้าย นี่ไม่ใช่เฟรมเวิร์กที่คุณต้องจัดการเอง แต่มันทำงานแบบ native ภายในโมเดลในทุกๆ คำขอที่เข้าเงื่อนไข

ผลลัพธ์ที่ได้คือการลดอาการหลอน (hallucinations) ลงถึง 65% เมื่อเทียบกับ Grok 4.1 โดยลดลงจากประมาณ 12% เหลือเพียง 4.2%

สถาปัตยกรรม 4-Agent ทำงานอย่างไร?

ระบบ multi-agent ของ Grok 4.20 ประกอบด้วย agent 4 ตัวที่ทำงานบนโครงสร้าง MoE ร่วมกัน:

Agent	บทบาท	ความเชี่ยวชาญ
Grok (Captain)	ผู้ประสานงาน	การย่อยงาน (Task decomposition), การจัดการความขัดแย้ง, การสังเคราะห์ขั้นสุดท้าย
Harper	การวิจัย	ค้นหาเว็บแบบ Real-time, การดึงข้อมูลจาก X Firehose, การอ้างอิงข้อเท็จจริง
Benjamin	ตรรกะ	การให้เหตุผลทางคณิตศาสตร์, การตรวจสอบโค้ด, ความสอดคล้องทางตรรกะ
Lucas	ความคิดสร้างสรรค์	การคิดเชิงวิพากษ์, การตรวจจับอคติ, การระบุมุมมองที่ขาดหายไป

ขั้นตอนการทำงานภายใน

Decomposition (การย่อยงาน): Grok/Captain วิเคราะห์ prompt แยกย่อยเป็นงานย่อยๆ และส่งไปยังผู้เชี่ยวชาญทั้งสามพร้อมกัน
Parallel analysis (การวิเคราะห์แบบขนาน): Agent ทั้ง 4 ตัวจะได้รับ context ทั้งหมดพร้อมกับมุมมองเฉพาะด้านของตนเอง และสร้างการวิเคราะห์เบื้องต้นขนานกันไป ไม่ใช่แบบลำดับขั้นตอน
Internal debate (การถกเถียงภายใน): Agents จะเข้าสู่รอบการตรวจทานแบบ peer-review Harper จะทำเครื่องหมายข้อกล่าวอ้างที่เป็นข้อเท็จจริงและอ้างอิงกับข้อมูลเรียลไทม์ Benjamin จะตรวจสอบความสอดคล้องทางตรรกะและการคำนวณ Lucas จะตรวจหาอคติและวิธีแก้ปัญหาที่ตายตัวเกินไป
Synthesis (การสังเคราะห์): Grok/Captain จะจัดการข้อโต้แย้ง รวมข้อมูลเชิงลึก และส่งคำตอบสุดท้ายออกมา

กระบวนการ peer-review ภายในนี้เองที่เป็นตัวขับเคลื่อนให้อัตราการเกิด hallucination ต่ำเป็นประวัติการณ์ เมื่อ agent ตัวหนึ่งสร้างข้อมูลเท็จขึ้นมา ตัวอื่นๆ จะตรวจพบก่อนที่ข้อมูลนั้นจะส่งถึงคุณ

Benchmarks: จุดเด่นและจุดด้อยของ Grok 4.20

ความซื่อสัตย์ (Honesty): ผู้นำในอุตสาหกรรม

Grok 4.20 ทำคะแนน non-hallucination rate ได้ถึง 78% ในการทดสอบ Artificial Analysis Omniscience ซึ่งสูงที่สุดในบรรดาทุกโมเดลที่ทดสอบ เมื่อมันไม่รู้คำตอบ มันจะตอบว่า "ฉันไม่รู้" ถึง 78% ของจำนวนครั้งทั้งหมด แทนที่จะสร้างคำตอบปลอมขึ้นมา

สำหรับการใช้งานในโปรดักชันที่ความน่าเชื่อถือมีความสำคัญมากกว่าความฉลาดเพียงอย่างเดียว นี่คือตัวเลขที่สำคัญที่สุดในตาราง

การเขียนโค้ด (Coding): แข่งขันได้แต่ยังไม่นำหน้า

ใน SWE-bench Verified (วิศวกรรมซอฟต์แวร์ในโลกจริง) Grok 4.20 ทำคะแนนได้ประมาณ 72–75% ขึ้นอยู่กับ scaffolding ที่ใช้ ซึ่งถือว่าแข็งแกร่งแต่ยังตามหลัง Claude Opus 4.6 ที่ 80.8% และ GPT-5.4 Pro ที่ 57.7% ในตัวแปร SWE-bench Pro ที่ยากกว่า

สำหรับงานเขียนโค้ดในชีวิตประจำวัน Grok 4.20 มีความสามารถเพียงพอ แต่สำหรับการ refactor ไฟล์จำนวนมากที่ซับซ้อนและการดีบักระดับระบบ Claude ยังคงเป็นผู้นำ

วิทยาศาสตร์และการใช้เหตุผล: ระดับกลาง

ใน GPQA Diamond (วิทยาศาสตร์ระดับบัณฑิตศึกษา) Grok 4.20 ทำคะแนนได้ 83–88% ขณะที่ GPT-5.4 นำอยู่ที่ 92.8% และ Opus 4.6 ที่ 91.3% สำหรับ ARC-AGI-2 (การใช้เหตุผลเชิงนามธรรมรูปแบบใหม่) Grok 4.20 ทำได้ 15.9% ซึ่งพัฒนาจากรุ่นก่อนๆ แต่ยังตามหลัง Opus 4.6 ที่ทำได้ถึง 68.8% อยู่มาก

ดัชนีความฉลาด (Intelligence Index): สิ่งที่ต้องแลกเปลี่ยน

Artificial Analysis จัดอันดับ Grok 4.20 อยู่ที่อันดับ 8 ใน Intelligence Index ด้วยคะแนน 48 ตามหลัง Gemini 3.1 Pro และ GPT-5.4 ที่ทำได้ 57 ดูเหมือนว่า xAI จะเลือกปรับแต่งเพื่อความน่าเชื่อถือมากกว่าการครอบครองความเป็นหนึ่งใน benchmark เพียงอย่างเดียว ซึ่งความคุ้มค่าของการแลกเปลี่ยนนี้ขึ้นอยู่กับรูปแบบการใช้งานของคุณโดยเฉพาะ

ราคา: โมเดล Frontier ราคาประหยัด?

ราคามาตรฐานของ Grok 4.20 API:

Input	Output
Grok 4.20	$2.00/M tokens	$6.00/M tokens
Grok 4.20 Multi-Agent	$2.00/M tokens	$6.00/M tokens
GPT-5.4	$2.50/M tokens	$15.00/M tokens
Claude Opus 4.6	$15.00/M tokens	$75.00/M tokens
Claude Sonnet 4.6	$3.00/M tokens	$15.00/M tokens

ที่ราคา $2/$6 ต่อล้าน tokens Grok 4.20 เป็นโมเดล frontier ที่ถูกที่สุดที่มีอยู่ โดยมีราคาถูกกว่า Opus 4.6 ถึง 7.5 เท่าในส่วนของ input และ 12.5 เท่าในส่วนของ output แม้จะเทียบกับ GPT-5.4 ก็ยังถูกกว่า 20% สำหรับ input และ 60% สำหรับ output

รุ่น multi-agent นั้นมาในราคาเดียวกัน ซึ่งหมายความว่าระบบการถกเถียงของ 4 agent นั้นไม่มีค่าใช้จ่ายเพิ่มเติม

API model identifiers

grok-4.20                    # Standard (เปิดใช้งาน reasoning เป็นค่าเริ่มต้น)
grok-4.20-non-reasoning      # เร็วขึ้น, ไม่มี chain-of-thought
grok-4.20-multi-agent        # การจัดการแบบ 4-agent อย่างชัดเจน

Base URL: https://api.x.ai/v1

การควบคุมงบประมาณการใช้เหตุผล (Reasoning budget control)

Grok 4.20 รองรับพารามิเตอร์ thinking_budget ที่ช่วยให้คุณควบคุมความลึกของการใช้เหตุผลต่อคำขอได้ โดยคุณจะจ่ายเฉพาะ tokens การใช้เหตุผลที่คุณใช้จริงเท่านั้น:

python

import openai

client = openai.OpenAI(
    base_url="https://api.x.ai/v1",
    api_key="YOUR_XAI_API_KEY"
)

response = client.chat.completions.create(
    model="grok-4.20",
    messages=[{"role": "user", "content": "Explain the multi-agent architecture of Grok 4.20"}],
    extra_body={"thinking_budget": 4096}
)

Context Window ขนาด 2M Token: ผลกระทบในการใช้งานจริง

Grok 4.20 มาพร้อมกับ context window ขนาด 2 ล้าน token ซึ่งใหญ่ที่สุดในบรรดาโมเดล frontier ในปัจจุบัน เพื่อเปรียบเทียบ:

โมเดล	Context Window
Grok 4.20	2,000,000
Gemini 3.1 Pro	1,000,000
Claude Opus 4.6	1,000,000
GPT-5.4	400,000

สิ่งนี้มีความสำคัญสำหรับการใช้งานที่เกี่ยวข้องกับ codebase ขนาดใหญ่, เอกสารทางกฎหมายที่มีความยาว, การวิเคราะห์หลายไฟล์ หรือเซสชันการวิจัยที่ยืดเยื้อ คุณสามารถใส่โค้ดได้ประมาณ 50,000 บรรทัดใน context window เดียว

ใครควรใช้ Grok 4.20?

เหมาะสำหรับ

งาน API ปริมาณมากภายใต้งบประมาณจำกัด ที่ราคา $2/$6 การรันคำขอนับพันครั้งต่อวันนั้นถูกกว่าทางเลือกอื่นอย่างมาก
แอปพลิเคชันที่ต้องการอัตราการหลอนต่ำ แชทบอทที่ตอบโต้กับลูกค้า, ข้อมูลทางการแพทย์, การวิจัยทางกฎหมาย — ทุกที่ที่การตอบผิดอย่างมั่นใจนั้นแย่กว่าการตอบว่า "ไม่รู้"
การวิเคราะห์ข้อมูลแบบเรียลไทม์ การเข้าถึงข้อมูลสดจาก X และเว็บของ Harper ทำให้ Grok 4.20 แข็งแกร่งในด้านความรู้สึกของตลาด (market sentiment), การตรวจสอบข่าว และการวิเคราะห์แนวโน้ม
งานที่ต้องใช้ context ยาว Context window ขนาด 2M สามารถจัดการ codebase ทั้งหมดหรือชุดเอกสารได้ในการรันครั้งเดียว

ไม่เหมาะสำหรับ

การเขียนโค้ดระดับล้ำสมัย Claude Opus 4.6 ยังคงนำหน้าใน SWE-bench อย่างมีนัยสำคัญ
การใช้เหตุผลเชิงนามธรรมที่ซับซ้อน ช่องว่างของ ARC-AGI-2 (15.9% เทียบกับ 68.8%) นั้นมีความสำคัญต่องานที่ต้องการการแก้ปัญหารูปแบบใหม่
การใช้คอมพิวเตอร์และระบบ GUI อัตโนมัติ GPT-5.4 นำอยู่ที่ 75% ใน OSWorld ซึ่งเหนือกว่าแม้กระทั่งผู้เชี่ยวชาญที่เป็นมนุษย์
ความฉลาดดิบสูงสุด หากคุณต้องการคะแนนสูงสุดใน benchmark ด้านวิทยาศาสตร์และการใช้เหตุผล GPT-5.4 หรือ Gemini 3.1 Pro ยังคงนำหน้าอยู่

คำถามที่พบบ่อย (FAQs)

Grok 4.20 มีพารามิเตอร์กี่ตัว?

Grok 4.20 ถูกสร้างขึ้นบนสถาปัตยกรรม Mixture-of-Experts ที่มีพารามิเตอร์รวมประมาณ 3 ล้านล้านตัว แต่พารามิเตอร์ทั้งหมดไม่ได้ทำงานพร้อมกันในแต่ละรอบการประมวลผล (inference) เนื่องจากการออกแบบ MoE จะส่งแต่ละ token ไปยังกลุ่มย่อยของผู้เชี่ยวชาญ ทำให้สามารถควบคุมค่าใช้จ่ายในการประมวลผลได้แม้จะมีจำนวนพารามิเตอร์รวมมหาศาล

Grok 4.20 ดีกว่า GPT-5.4 หรือไม่?

ขึ้นอยู่กับสิ่งที่คุณต้องการ Grok 4.20 ชนะในเรื่องราคา ($2/$6 เทียบกับ $2.50/$15), context window (2M เทียบกับ 400K) และความซื่อสัตย์ (non-hallucination rate 78%) ส่วน GPT-5.4 ชนะใน benchmark ด้านวิทยาศาสตร์ (GPQA 92.8% เทียบกับ 83–88%), การใช้คอมพิวเตอร์ (OSWorld 75%) และคะแนนดัชนีความฉลาดดิบ สำหรับการใช้งานจริงที่เน้นงบประมาณและความน่าเชื่อถือ Grok 4.20 เป็นตัวเลือกที่แข็งแกร่งมาก

Grok 4.20 ดีกว่า Claude Opus 4.6 หรือไม่?

Claude Opus 4.6 มีประสิทธิภาพเหนือกว่า Grok 4.20 อย่างมากในด้านการเขียนโค้ด (80.8% เทียบกับ ~72% ใน SWE-bench), การใช้เหตุผลเชิงนามธรรม (68.8% เทียบกับ 15.9% ใน ARC-AGI-2) และวิทยาศาสตร์ (91.3% เทียบกับ 83–88% ใน GPQA) อย่างไรก็ตาม Grok 4.20 นั้นถูกกว่าอย่างมหาศาล ($2/$6 เทียบกับ $15/$75) และมี context window เป็นสองเท่า (2M เทียบกับ 1M) หากคุณต้องการคุณภาพสูงสุดสำหรับงานที่ซับซ้อน Opus คือผู้ชนะ หากคุณต้องการโมเดล frontier ที่มีความสามารถในราคาเพียงเสี้ยวเดียว Grok 4.20 ก็น่าสนใจมาก

ระบบ multi-agent คืออะไร และต้องจ่ายเพิ่มหรือไม่?

ระบบ multi-agent จะส่งคำถามผ่าน agent เฉพาะทาง 4 ตัว (Grok, Harper, Benjamin, Lucas) เพื่อถกเถียงและตรวจสอบความถูกต้องก่อนตอบ ระบบนี้ถูกสร้างมาให้เป็นส่วนหนึ่งของโมเดลโดยตรง คุณจึงไม่ต้องจ่ายเพิ่ม ทั้งรุ่นมาตรฐานและรุ่น multi-agent ใช้ราคาเดียวกันที่ $2/$6 ต่อล้าน tokens

API model identifier สำหรับ Grok 4.20 คืออะไร?

Model ID หลักคือ grok-4.20 โดยมีรุ่นย่อยคือ grok-4.20-non-reasoning สำหรับการตอบกลับที่เร็วขึ้นโดยไม่มี chain-of-thought และ grok-4.20-multi-agent สำหรับการจัดการแบบ multi-agent อย่างชัดเจน โดยมี API base URL คือ https://api.x.ai/v1

Grok 4.20 วางจำหน่ายเมื่อไหร่?

Grok 4.20 เข้าสู่ช่วง public beta เมื่อวันที่ 17 กุมภาพันธ์ 2026 พร้อมการอัปเดต Beta 2 ในวันที่ 3 มีนาคม 2026 (model version 0309) และเปิดใช้งานทั่วไปในเดือนมีนาคม 2026

บทสรุป

Grok 4.20 ไม่ใช่โมเดลที่ฉลาดที่สุด — ตำแหน่งนั้นเป็นของ GPT-5.4 และ Claude Opus 4.6 ขึ้นอยู่กับ benchmark แต่สิ่งที่มันนำเสนอคือการผสมผสานที่เป็นเอกลักษณ์: ความสามารถระดับ frontier, ความซื่อสัตย์ชั้นนำของอุตสาหกรรม, context window ที่ใหญ่ที่สุด และราคาที่ต่ำที่สุดในบรรดาโมเดลระดับท็อป สถาปัตยกรรม 4-agent นั้นเป็นสิ่งแปลกใหม่และช่วยปรับปรุงความแม่นยำของข้อเท็จจริงได้อย่างชัดเจน

สำหรับนักพัฒนาที่สร้างแอปพลิเคชันซึ่งต้นทุน ความน่าเชื่อถือ และความยาวของบริบทมีความสำคัญมากกว่าการทำลายสถิติสูงสุดของ benchmark การใช้เหตุผล Grok 4.20 คือตัวเลือกที่ควรพิจารณาอย่างยิ่ง

ที่ Y Build เราผสานรวมโมเดล frontier หลายตัว — รวมถึง Grok 4.20, Claude และ GPT — เพื่อให้คุณสามารถเลือกใช้โมเดลที่เหมาะสมที่สุดกับแต่ละงาน ไม่ว่าคุณจะต้องการความซื่อสัตย์ที่คุ้มค่าของ Grok 4.20 สำหรับฟีเจอร์ที่ต้องตอบโต้กับลูกค้า หรือความแม่นยำในการเขียนโค้ดของ Opus 4.6 สำหรับขั้นตอนการพัฒนา เครื่องมือที่เหมาะสมย่อมขึ้นอยู่กับลักษณะของงานนั้นๆ