GPT-5.3 Codex: เอเจนท์เขียนโค้ดอัตโนมัติจาก OpenAI

TL;DR

OpenAI เปิดตัว GPT-5.3 Codex เมื่อวันที่ 5 กุมภาพันธ์ 2026 — วันเดียวกับที่ Anthropic ปล่อย Opus 4.6 สถิติที่สำคัญมีดังนี้:

Terminal-Bench 2.0: 77.3% — นำหน้าทุกโมเดลในการเขียนโค้ดผ่าน terminal แบบเอเจนท์ (agentic)
SWE-Bench Pro: 56.8% — คะแนนสูงสุดในสี่ภาษาโปรแกรมหลัก
OSWorld: 64.7% — ความสามารถในการใช้งานคอมพิวเตอร์ที่แข็งแกร่ง (แต่ยังตามหลัง Sonnet 4.6 ที่ทำได้ 72.5%)
เร็วขึ้น 25% เมื่อเทียบกับ GPT-5.2 Codex
โต้ตอบได้ขณะทำงาน — สามารถปรับทิศทางเอเจนท์ระหว่างปฏิบัติงานได้โดยไม่สูญเสียบริบท (context)
โมเดล self-bootstrapping ตัวแรก — GPT-5.3 Codex มีส่วนช่วยในการดีบักการเทรนของตัวมันเอง
ใช้งานได้แล้วในแอป Codex, CLI และ IDE extension สำหรับผู้ใช้ ChatGPT แผนเสียเงิน
ยังไม่มีการประกาศราคา API

สิ่งที่ OpenAI ประกาศ

GPT-5.3 Codex ไม่ได้เป็นเพียงโมเดลเขียนโค้ดที่เก่งขึ้นเท่านั้น แต่มันเป็นโมเดลแรกของ OpenAI ที่ถูกออกแบบมาให้เป็น เอเจนท์สำหรับวงจรชีวิตซอฟต์แวร์แบบครบวงจร (full software lifecycle agent) — ทั้งการดีบัก, การ deploy, การตรวจสอบ (monitoring), การเขียน PRDs, การแก้ไขคำโฆษณา, การรัน test และอื่นๆ อีกมากมาย

ฟีเจอร์เด่นคือ: การทำงานที่ยาวนานแบบอัตโนมัติ (autonomous long-running tasks) เพียงมอบหมายงานที่ซับซ้อนให้ GPT-5.3 Codex แล้วมันจะทำงานต่อเนื่องนานหลายชั่วโมง — ทั้งการค้นคว้า, การใช้เครื่องมือ, การรันโค้ด และการปรับเปลี่ยนแผนงานตามสถานการณ์ คุณสามารถปรับทิศทางมันได้ระหว่างทางโดยไม่เสียบริบท เหมือนกับการทำงานร่วมกับเพื่อนร่วมงาน

คำกล่าวที่น่าตื่นเต้นที่สุดของ OpenAI คือ: GPT-5.3 Codex เป็น "โมเดลแรกที่มีส่วนสำคัญในการสร้างตัวมันเองขึ้นมา" โดยทีม Codex ได้ใช้เวอร์ชันเริ่มต้นในการดีบัก pipeline การเทรน, จัดการการ deployment และวิเคราะห์ผลการประเมิน (evaluation results)

ผลการทดสอบ (Benchmarks)

จุดที่ GPT-5.3 Codex เป็นผู้นำ

Benchmark	ทดสอบด้านใด	GPT-5.3 Codex	คู่แข่งที่ดีที่สุด
Terminal-Bench 2.0	การเขียนโค้ดผ่าน terminal แบบเอเจนท์	77.3%	Gemini 3.1 Pro: 68.5%
SWE-Bench Pro	การเขียนโค้ดหลายภาษา	56.8%	Gemini 3.1 Pro: 54.2%
HumanEval	การสร้างโค้ด (Code generation)	93%	—
GPQA	การให้เหตุผลทางวิทยาศาสตร์	81%	Gemini 3.1 Pro: 94.3%

การเปรียบเทียบฉบับเต็ม

Benchmark	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	77.3%	65.4%	59.1%	68.5%
SWE-Bench Pro	56.8%	—	—	54.2%
OSWorld	64.7%	72.7%	72.5%	N/A
SWE-bench Verified	~80%	80.8%	79.6%	80.6%
ARC-AGI-2	52.9%	68.8%	58.3%	77.1%

ความหมายของตัวเลขเหล่านี้

GPT-5.3 Codex ครองความได้เปรียบในด้าน การเขียนโค้ดผ่าน terminal แบบเอเจนท์ — ซึ่งเป็นงานที่ AI เอเจนท์ต้องสำรวจ codebase, รันคำสั่ง, ตีความ output, แก้ไขข้อผิดพลาด และทำงานซ้ำจนสำเร็จ คะแนน 77.3% ใน Terminal-Bench นั้นนำหน้าคู่แข่งรายถัดไป (Gemini 3.1 Pro ที่ 68.5%) ถึงเกือบ 9 จุด และนำหน้า Opus 4.6 (65.4%) ถึง 12 จุด

อย่างไรก็ตาม ในด้าน การใช้งานคอมพิวเตอร์ (computer use) (OSWorld) มันยังตามหลัง Claude อย่างชัดเจน — 64.7% เทียบกับ Sonnet 4.6 ที่ 72.5% และในด้าน การให้เหตุผล (reasoning) (ARC-AGI-2) มันยังตามหลัง Gemini 3.1 Pro (77.1%) และ Opus 4.6 (68.8%) อยู่มาก

ฟีเจอร์หลัก

1. เซสชันอัตโนมัตินานหลายชั่วโมง (Autonomous Multi-Hour Sessions)

โมเดลเขียนโค้ดรุ่นก่อนๆ ทำงานแบบเป็นช่วงสั้นๆ — คุณสั่ง มันตอบ แล้วคุณสั่งใหม่ แต่ GPT-5.3 Codex สามารถทำงานกับโปรเจกต์ที่ซับซ้อนได้อย่างต่อเนื่อง โดยจัดการเวิร์กโฟลว์ของตัวเองผ่านหลายขั้นตอน

ตัวอย่างเวิร์กโฟลว์: "ย้ายระบบ authentication ของเราจาก JWT ไปเป็น OAuth 2.0, อัปเดต endpoint ทั้งหมดที่เกี่ยวข้อง, เขียน test และตรวจสอบว่าการย้ายระบบทำงานได้ถูกต้อง" GPT-5.3 Codex จะทำการค้นคว้า codebase, วางแผนการย้ายระบบ, ดำเนินการทีละไฟล์, รัน test, แก้ไขจุดที่พัง และรายงานกลับมา — ซึ่งอาจใช้เวลานานหลายชั่วโมง

2. การควบคุมทิศทางแบบโต้ตอบ (Interactive Steering)

คุณสามารถเปลี่ยนทิศทางการทำงานของ GPT-5.3 Codex ได้ในขณะที่มันกำลังทำงานโดยไม่เสียบริบท หากคุณเห็นว่ามันกำลังไปผิดทาง คุณสามารถบอกให้มันเปลี่ยนวิธีได้ทันที โดยที่การสนทนายังคงต่อเนื่อง

3. วงจรชีวิตซอฟต์แวร์ครบวงจร

OpenAI วางตำแหน่ง GPT-5.3 Codex ให้เป็นมากกว่าแค่เครื่องมือเขียนโค้ด:

การดีบัก (Debugging) — อ่าน error logs, ไล่หาสาเหตุต้นตอ, และดำเนินการแก้ไข
การ Deploy (Deploying) — จัดการ pipeline การ deploy และการตั้งค่า (configurations)
การตรวจสอบ (Monitoring) — เฝ้าระวังปัญหาในระบบที่กำลังรันอยู่
PRDs และเอกสาร — เขียนความต้องการของผลิตภัณฑ์ (product requirements) และเอกสารประกอบ
การวิจัยผู้ใช้ (User research) — สรุปผลตอบรับและผลการทดสอบ
การทดสอบ (Testing) — สร้างและรันชุดการทดสอบ (test suites)
ตัวชี้วัด (Metrics) — วิเคราะห์ข้อมูลประสิทธิภาพ

4. Self-Bootstrapping

GPT-5.3 Codex ใช้เวอร์ชันเริ่มต้นของตัวเองในระหว่างการพัฒนาเพื่อ:

ดีบักปัญหาใน training pipeline

จัดการการ deployment ของโมเดล

วิเคราะห์ผลการประเมิน

พัฒนาเกมซ้ำๆ อย่างต่อเนื่องแบบอัตโนมัติผ่านโทเค็นจำนวนมหาศาล

นี่เป็นครั้งแรกที่มีการบรรยายถึงโมเดล AI ต่อสาธารณะว่ามีส่วนช่วยในการสร้างตัวมันเองขึ้นมา

GPT-5.3 Codex ปะทะ Claude Code

ความสามารถ	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
การเขียนโค้ดผ่าน Terminal	77.3%	Opus: 65.4%, Sonnet: 59.1%
การใช้งานคอมพิวเตอร์	64.7%	Sonnet: 72.5%, Opus: 72.7%
SWE-bench	~80%	Opus: 80.8%, Sonnet: 79.6%
การทำงานอัตโนมัติหลายชั่วโมง	ได้	จำกัด
การควบคุมทิศทางแบบโต้ตอบ	ได้	ได้
การรวมเข้ากับ IDE	Codex IDE extension	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
งานออฟฟิศ	จำกัด	Sonnet: 1633 Elo
การป้องกัน Prompt injection	มาตรฐาน	ระดับ Opus
ราคา API	รอกำหนด	$3/$15 (Sonnet), $15/$75 (Opus)

เลือก GPT-5.3 Codex เมื่อ:

ต้องการงานเขียนโค้ดอัตโนมัติที่รันยาวนาน (เซสชันหลายชั่วโมง)
เวิร์กโฟลว์ที่เน้นการใช้ Terminal พร้อมเครื่องมือที่ซับซ้อน
ใช้งานในระบบนิเวศของ OpenAI/ChatGPT อยู่แล้ว
ต้องการระบบอัตโนมัติสำหรับวงจรชีวิตซอฟต์แวร์ทั้งหมด

เลือก Claude Code เมื่อ:

ต้องการการใช้งานคอมพิวเตอร์ / ระบบอัตโนมัติบนเบราว์เซอร์ (72.5% vs 64.7%)
มีงานออฟฟิศควบคู่ไปกับการเขียนโค้ด
ความปลอดภัยของเอเจนท์เป็นเรื่องสำคัญ (ป้องกัน prompt injection ได้ดีกว่า)
ต้องการความชัดเจนเรื่องราคา API ($3/$15)

การเปิดให้ใช้งาน

GPT-5.3 Codex เปิดให้ใช้งานสำหรับแผน ChatGPT แบบชำระเงิน (Plus, Pro, Team, Enterprise) ผ่าน:

Codex app (เว็บ) — อินเตอร์เฟซเอเจนท์อัตโนมัติแบบเต็มรูปแบบ
Codex CLI — เอเจนท์เขียนโค้ดผ่าน terminal
IDE extension — รวมเข้ากับ editor ของคุณโดยตรง
API — จะตามมาในอีกไม่กี่สัปดาห์ (รอกำหนดราคา)

ยังไม่มีการเปิดให้ใช้งานในระดับฟรี

สิ่งนี้มีความหมายอย่างไรต่อเหล่านักพัฒนา

การแข่งขันของ AI Coding Agent เริ่มขึ้นอย่างจริงจัง

วันที่ 5 กุมภาพันธ์ 2026 เราได้เห็นทั้ง OpenAI และ Anthropic ปล่อยโมเดลสำคัญในวันเดียวกัน — GPT-5.3 Codex และ Claude Opus 4.6 ข้อความนั้นชัดเจนว่า: เอเจนท์เขียนโค้ดอัตโนมัติคือสมรภูมิหลักของการแข่งขัน

จุดแข็งที่แตกต่าง เวิร์กโฟลว์ที่ต่างกัน

GPT-5.3 Codex โดดเด่นในด้านการเขียนโค้ดผ่าน terminal แบบอัตโนมัติในเซสชันที่ยาวนาน Claude โดดเด่นด้านการใช้งานคอมพิวเตอร์, การเชื่อมต่อกับงานออฟฟิศ และความปลอดภัย ส่วน Gemini 3.1 Pro นำหน้าในด้านการให้เหตุผลและมัลติโมดอล

สำหรับนักพัฒนาส่วนใหญ่ การเลือกใช้ขึ้นอยู่กับเวิร์กโฟลว์ของคุณ:

งาน CLI/terminal หนักๆ → GPT-5.3 Codex

ระบบอัตโนมัติบนเบราว์เซอร์ + งานผสมผสาน → Claude Code

งานที่เน้นวิทยาศาสตร์/การให้เหตุผลสูง → Gemini 3.1 Pro

โมเดลเป็นเพียงจุดเริ่มต้น

แนวโน้มของทั้งสามห้องแล็บคือ: ลำพังแค่โมเดลนั้นไม่เพียงพอ คุณต้องการเครื่องมือสำหรับการ deployment, การตรวจสอบ, การวิเคราะห์ และการเติบโตล้อมรอบมัน AI เอเจนท์อาจเป็นคนเขียนโค้ด แต่การส่งมอบผลิตภัณฑ์ (shipping a product) นั้นต้องใช้เครื่องมือครบทั้ง stack

สร้างสิ่งที่ต้องการ แล้วส่งมอบให้ถึงมือผู้ใช้ Y Build จัดการทุกอย่างหลังจากเขียนโค้ด: deploy ในคลิกเดียว, Demo Cut สำหรับวิดีโอแนะนำผลิตภัณฑ์, AI SEO และระบบวิเคราะห์ ทำงานร่วมกับเครื่องมือเขียนโค้ด AI ได้ทุกตัว เริ่มใช้งานฟรี

แหล่งอ้างอิง: