GPT-5.3 Codex: เอเจนท์เขียนโค้ดอัตโนมัติจาก OpenAI
OpenAI เปิดตัว GPT-5.3 Codex เมื่อวันที่ 5 กุมภาพันธ์ 2026 — โมเดล AI ตัวแรกที่ช่วยสร้างตัวเอง ทำคะแนน Terminal-Bench ได้ 77.3%, SWE-Bench Pro 56.8% และรองรับเซสชันการเขียนโค้ดอัตโนมัตินานหลายชั่วโมง เจาะลึกฟีเจอร์, ผลการทดสอบ และการเปรียบเทียบกับ Claude Code
TL;DR
OpenAI เปิดตัว GPT-5.3 Codex เมื่อวันที่ 5 กุมภาพันธ์ 2026 — วันเดียวกับที่ Anthropic ปล่อย Opus 4.6 สถิติที่สำคัญมีดังนี้:
- Terminal-Bench 2.0: 77.3% — นำหน้าทุกโมเดลในการเขียนโค้ดผ่าน terminal แบบเอเจนท์ (agentic)
- SWE-Bench Pro: 56.8% — คะแนนสูงสุดในสี่ภาษาโปรแกรมหลัก
- OSWorld: 64.7% — ความสามารถในการใช้งานคอมพิวเตอร์ที่แข็งแกร่ง (แต่ยังตามหลัง Sonnet 4.6 ที่ทำได้ 72.5%)
- เร็วขึ้น 25% เมื่อเทียบกับ GPT-5.2 Codex
- โต้ตอบได้ขณะทำงาน — สามารถปรับทิศทางเอเจนท์ระหว่างปฏิบัติงานได้โดยไม่สูญเสียบริบท (context)
- โมเดล self-bootstrapping ตัวแรก — GPT-5.3 Codex มีส่วนช่วยในการดีบักการเทรนของตัวมันเอง
- ใช้งานได้แล้วในแอป Codex, CLI และ IDE extension สำหรับผู้ใช้ ChatGPT แผนเสียเงิน
- ยังไม่มีการประกาศราคา API
สิ่งที่ OpenAI ประกาศ
GPT-5.3 Codex ไม่ได้เป็นเพียงโมเดลเขียนโค้ดที่เก่งขึ้นเท่านั้น แต่มันเป็นโมเดลแรกของ OpenAI ที่ถูกออกแบบมาให้เป็น เอเจนท์สำหรับวงจรชีวิตซอฟต์แวร์แบบครบวงจร (full software lifecycle agent) — ทั้งการดีบัก, การ deploy, การตรวจสอบ (monitoring), การเขียน PRDs, การแก้ไขคำโฆษณา, การรัน test และอื่นๆ อีกมากมาย
ฟีเจอร์เด่นคือ: การทำงานที่ยาวนานแบบอัตโนมัติ (autonomous long-running tasks) เพียงมอบหมายงานที่ซับซ้อนให้ GPT-5.3 Codex แล้วมันจะทำงานต่อเนื่องนานหลายชั่วโมง — ทั้งการค้นคว้า, การใช้เครื่องมือ, การรันโค้ด และการปรับเปลี่ยนแผนงานตามสถานการณ์ คุณสามารถปรับทิศทางมันได้ระหว่างทางโดยไม่เสียบริบท เหมือนกับการทำงานร่วมกับเพื่อนร่วมงาน
คำกล่าวที่น่าตื่นเต้นที่สุดของ OpenAI คือ: GPT-5.3 Codex เป็น "โมเดลแรกที่มีส่วนสำคัญในการสร้างตัวมันเองขึ้นมา" โดยทีม Codex ได้ใช้เวอร์ชันเริ่มต้นในการดีบัก pipeline การเทรน, จัดการการ deployment และวิเคราะห์ผลการประเมิน (evaluation results)
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
ผลการทดสอบ (Benchmarks)
จุดที่ GPT-5.3 Codex เป็นผู้นำ
| Benchmark | ทดสอบด้านใด | GPT-5.3 Codex | คู่แข่งที่ดีที่สุด |
|---|---|---|---|
| Terminal-Bench 2.0 | การเขียนโค้ดผ่าน terminal แบบเอเจนท์ | 77.3% | Gemini 3.1 Pro: 68.5% |
| SWE-Bench Pro | การเขียนโค้ดหลายภาษา | 56.8% | Gemini 3.1 Pro: 54.2% |
| HumanEval | การสร้างโค้ด (Code generation) | 93% | — |
| GPQA | การให้เหตุผลทางวิทยาศาสตร์ | 81% | Gemini 3.1 Pro: 94.3% |
การเปรียบเทียบฉบับเต็ม
| Benchmark | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 77.3% | 65.4% | 59.1% | 68.5% |
| SWE-Bench Pro | 56.8% | — | — | 54.2% |
| OSWorld | 64.7% | 72.7% | 72.5% | N/A |
| SWE-bench Verified | ~80% | 80.8% | 79.6% | 80.6% |
| ARC-AGI-2 | 52.9% | 68.8% | 58.3% | 77.1% |
ความหมายของตัวเลขเหล่านี้
GPT-5.3 Codex ครองความได้เปรียบในด้าน การเขียนโค้ดผ่าน terminal แบบเอเจนท์ — ซึ่งเป็นงานที่ AI เอเจนท์ต้องสำรวจ codebase, รันคำสั่ง, ตีความ output, แก้ไขข้อผิดพลาด และทำงานซ้ำจนสำเร็จ คะแนน 77.3% ใน Terminal-Bench นั้นนำหน้าคู่แข่งรายถัดไป (Gemini 3.1 Pro ที่ 68.5%) ถึงเกือบ 9 จุด และนำหน้า Opus 4.6 (65.4%) ถึง 12 จุด
อย่างไรก็ตาม ในด้าน การใช้งานคอมพิวเตอร์ (computer use) (OSWorld) มันยังตามหลัง Claude อย่างชัดเจน — 64.7% เทียบกับ Sonnet 4.6 ที่ 72.5% และในด้าน การให้เหตุผล (reasoning) (ARC-AGI-2) มันยังตามหลัง Gemini 3.1 Pro (77.1%) และ Opus 4.6 (68.8%) อยู่มาก
ฟีเจอร์หลัก
1. เซสชันอัตโนมัตินานหลายชั่วโมง (Autonomous Multi-Hour Sessions)
โมเดลเขียนโค้ดรุ่นก่อนๆ ทำงานแบบเป็นช่วงสั้นๆ — คุณสั่ง มันตอบ แล้วคุณสั่งใหม่ แต่ GPT-5.3 Codex สามารถทำงานกับโปรเจกต์ที่ซับซ้อนได้อย่างต่อเนื่อง โดยจัดการเวิร์กโฟลว์ของตัวเองผ่านหลายขั้นตอน
ตัวอย่างเวิร์กโฟลว์: "ย้ายระบบ authentication ของเราจาก JWT ไปเป็น OAuth 2.0, อัปเดต endpoint ทั้งหมดที่เกี่ยวข้อง, เขียน test และตรวจสอบว่าการย้ายระบบทำงานได้ถูกต้อง" GPT-5.3 Codex จะทำการค้นคว้า codebase, วางแผนการย้ายระบบ, ดำเนินการทีละไฟล์, รัน test, แก้ไขจุดที่พัง และรายงานกลับมา — ซึ่งอาจใช้เวลานานหลายชั่วโมง
2. การควบคุมทิศทางแบบโต้ตอบ (Interactive Steering)
คุณสามารถเปลี่ยนทิศทางการทำงานของ GPT-5.3 Codex ได้ในขณะที่มันกำลังทำงานโดยไม่เสียบริบท หากคุณเห็นว่ามันกำลังไปผิดทาง คุณสามารถบอกให้มันเปลี่ยนวิธีได้ทันที โดยที่การสนทนายังคงต่อเนื่อง
3. วงจรชีวิตซอฟต์แวร์ครบวงจร
OpenAI วางตำแหน่ง GPT-5.3 Codex ให้เป็นมากกว่าแค่เครื่องมือเขียนโค้ด:
- การดีบัก (Debugging) — อ่าน error logs, ไล่หาสาเหตุต้นตอ, และดำเนินการแก้ไข
- การ Deploy (Deploying) — จัดการ pipeline การ deploy และการตั้งค่า (configurations)
- การตรวจสอบ (Monitoring) — เฝ้าระวังปัญหาในระบบที่กำลังรันอยู่
- PRDs และเอกสาร — เขียนความต้องการของผลิตภัณฑ์ (product requirements) และเอกสารประกอบ
- การวิจัยผู้ใช้ (User research) — สรุปผลตอบรับและผลการทดสอบ
- การทดสอบ (Testing) — สร้างและรันชุดการทดสอบ (test suites)
- ตัวชี้วัด (Metrics) — วิเคราะห์ข้อมูลประสิทธิภาพ
4. Self-Bootstrapping
GPT-5.3 Codex ใช้เวอร์ชันเริ่มต้นของตัวเองในระหว่างการพัฒนาเพื่อ:
- ดีบักปัญหาใน training pipeline
- จัดการการ deployment ของโมเดล
- วิเคราะห์ผลการประเมิน
- พัฒนาเกมซ้ำๆ อย่างต่อเนื่องแบบอัตโนมัติผ่านโทเค็นจำนวนมหาศาล
นี่เป็นครั้งแรกที่มีการบรรยายถึงโมเดล AI ต่อสาธารณะว่ามีส่วนช่วยในการสร้างตัวมันเองขึ้นมา
GPT-5.3 Codex ปะทะ Claude Code
| ความสามารถ | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| การเขียนโค้ดผ่าน Terminal | 77.3% | Opus: 65.4%, Sonnet: 59.1% |
| การใช้งานคอมพิวเตอร์ | 64.7% | Sonnet: 72.5%, Opus: 72.7% |
| SWE-bench | ~80% | Opus: 80.8%, Sonnet: 79.6% |
| การทำงานอัตโนมัติหลายชั่วโมง | ได้ | จำกัด |
| การควบคุมทิศทางแบบโต้ตอบ | ได้ | ได้ |
| การรวมเข้ากับ IDE | Codex IDE extension | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| งานออฟฟิศ | จำกัด | Sonnet: 1633 Elo |
| การป้องกัน Prompt injection | มาตรฐาน | ระดับ Opus |
| ราคา API | รอกำหนด | $3/$15 (Sonnet), $15/$75 (Opus) |
- ต้องการงานเขียนโค้ดอัตโนมัติที่รันยาวนาน (เซสชันหลายชั่วโมง)
- เวิร์กโฟลว์ที่เน้นการใช้ Terminal พร้อมเครื่องมือที่ซับซ้อน
- ใช้งานในระบบนิเวศของ OpenAI/ChatGPT อยู่แล้ว
- ต้องการระบบอัตโนมัติสำหรับวงจรชีวิตซอฟต์แวร์ทั้งหมด
- ต้องการการใช้งานคอมพิวเตอร์ / ระบบอัตโนมัติบนเบราว์เซอร์ (72.5% vs 64.7%)
- มีงานออฟฟิศควบคู่ไปกับการเขียนโค้ด
- ความปลอดภัยของเอเจนท์เป็นเรื่องสำคัญ (ป้องกัน prompt injection ได้ดีกว่า)
- ต้องการความชัดเจนเรื่องราคา API ($3/$15)
การเปิดให้ใช้งาน
GPT-5.3 Codex เปิดให้ใช้งานสำหรับแผน ChatGPT แบบชำระเงิน (Plus, Pro, Team, Enterprise) ผ่าน:
- Codex app (เว็บ) — อินเตอร์เฟซเอเจนท์อัตโนมัติแบบเต็มรูปแบบ
- Codex CLI — เอเจนท์เขียนโค้ดผ่าน terminal
- IDE extension — รวมเข้ากับ editor ของคุณโดยตรง
- API — จะตามมาในอีกไม่กี่สัปดาห์ (รอกำหนดราคา)
สิ่งนี้มีความหมายอย่างไรต่อเหล่านักพัฒนา
การแข่งขันของ AI Coding Agent เริ่มขึ้นอย่างจริงจัง
วันที่ 5 กุมภาพันธ์ 2026 เราได้เห็นทั้ง OpenAI และ Anthropic ปล่อยโมเดลสำคัญในวันเดียวกัน — GPT-5.3 Codex และ Claude Opus 4.6 ข้อความนั้นชัดเจนว่า: เอเจนท์เขียนโค้ดอัตโนมัติคือสมรภูมิหลักของการแข่งขัน
จุดแข็งที่แตกต่าง เวิร์กโฟลว์ที่ต่างกัน
GPT-5.3 Codex โดดเด่นในด้านการเขียนโค้ดผ่าน terminal แบบอัตโนมัติในเซสชันที่ยาวนาน Claude โดดเด่นด้านการใช้งานคอมพิวเตอร์, การเชื่อมต่อกับงานออฟฟิศ และความปลอดภัย ส่วน Gemini 3.1 Pro นำหน้าในด้านการให้เหตุผลและมัลติโมดอล
สำหรับนักพัฒนาส่วนใหญ่ การเลือกใช้ขึ้นอยู่กับเวิร์กโฟลว์ของคุณ:
- งาน CLI/terminal หนักๆ → GPT-5.3 Codex
- ระบบอัตโนมัติบนเบราว์เซอร์ + งานผสมผสาน → Claude Code
- งานที่เน้นวิทยาศาสตร์/การให้เหตุผลสูง → Gemini 3.1 Pro
โมเดลเป็นเพียงจุดเริ่มต้น
แนวโน้มของทั้งสามห้องแล็บคือ: ลำพังแค่โมเดลนั้นไม่เพียงพอ คุณต้องการเครื่องมือสำหรับการ deployment, การตรวจสอบ, การวิเคราะห์ และการเติบโตล้อมรอบมัน AI เอเจนท์อาจเป็นคนเขียนโค้ด แต่การส่งมอบผลิตภัณฑ์ (shipping a product) นั้นต้องใช้เครื่องมือครบทั้ง stack
สร้างสิ่งที่ต้องการ แล้วส่งมอบให้ถึงมือผู้ใช้ Y Build จัดการทุกอย่างหลังจากเขียนโค้ด: deploy ในคลิกเดียว, Demo Cut สำหรับวิดีโอแนะนำผลิตภัณฑ์, AI SEO และระบบวิเคราะห์ ทำงานร่วมกับเครื่องมือเขียนโค้ด AI ได้ทุกตัว เริ่มใช้งานฟรี
แหล่งอ้างอิง:
- OpenAI: Introducing GPT-5.3-Codex
- OpenAI: GPT-5.3-Codex System Card
- Fortune: OpenAI GPT-5.3 Codex raises cybersecurity risks
- MarkTechPost: GPT-5.3-Codex agentic coding model
- DataCamp: GPT-5.3 Codex from coding to general work agent
- OfficeChai: Gemini 3.1 Pro Benchmarks (GPT-5.3 comparison)
- LLM Stats: GPT-5.3 Codex pricing and benchmarks
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.