GPT Image 2 มาแล้ว: โมเดลสร้างภาพที่ทรงพลังที่สุดของ OpenAI ใช้งานได้ตั้งแต่วันแรกบน Y Build
OpenAI เพิ่งเปิดตัว GPT Image 2 — ให้ผลลัพธ์ภาพถ่ายที่สมจริง ข้อความในรูปภาพที่แม่นยำ และความเข้าใจฉากแบบโมเดลโลก เราจะมาเจาะลึกว่ามีอะไรใหม่ ทำไมมันถึงสำคัญสำหรับดีไซน์เนอร์และนักพัฒนา และวิธีที่ Y Build ผสานการทำงานตั้งแต่วันแรก (T+0)
TL;DR
OpenAI เปิดตัว GPT Image 2 ในวันนี้ — ผู้สืบทอดของ gpt-image-1 และ DALL-E 3 จากข้อมูลการเปิดตัว นี่คือโมเดลสร้างภาพที่ทรงพลังที่สุดเท่าที่มีให้ใช้งานสาธารณะในปัจจุบัน:
- Photorealism (ความสมจริงของภาพถ่าย) ในระดับที่ทำให้ GPT Image 1 ดูเหมือนโมเดลจากปี 2023 ไปเลย
- Text-in-image (ข้อความในภาพ) ที่อ่านได้ถูกต้องจริงๆ รวมถึงย่อหน้าที่ยาวและฟอนต์ที่หลากหลาย
- Scene understanding (ความเข้าใจฉาก) — ความสัมพันธ์เชิงพื้นที่ ฟิสิกส์ ความสอดคล้องของแสงและเงา
- Compositional accuracy (ความแม่นยำในการจัดองค์ประกอบ) — รองรับพรอมต์ที่ซับซ้อนที่มีวัตถุ 5 อย่างขึ้นไปได้อย่างถูกต้อง
- Editing (การแก้ไข) — การแก้ไขเฉพาะจุดด้วยภาษาธรรมชาติที่ยังคงรักษาฉากส่วนที่เหลือไว้ได้
- Speed (ความเร็ว) — ใช้เวลา 4-6 วินาทีสำหรับภาพแรกที่ความละเอียด 1024x1024
มีอะไรใหม่บ้าง
ความสมจริงโดยไม่มี "ลุคแบบ AI"
เมื่อเปรียบเทียบกับ GPT Image 1 ร่องรอยที่บ่งบอกว่าเป็นภาพที่สร้างด้วย AI เช่น ความผิดปกติของมือเพียงเล็กน้อย ผิวที่เรียบเนียนเกินไป หรือแสงที่เป็นไปไม่ได้ ส่วนใหญ่ได้หายไปใน GPT Image 2 ตัวอย่างของ OpenAI เน้นไปที่พื้นผิวของผิวหนัง รายละเอียดของรูขุมขน และแสงระดับไมโครบนพื้นผิวต่างๆ
นี่ไม่ได้หมายความว่าจะตรวจจับไม่ได้เลย — เครื่องมือตรวจจับภาพ AI ยังคงตรวจพบได้ที่ประมาณ 85% — แต่มาตรฐานด้านภาพนั้นก้าวกระโดดขึ้นอย่างมาก
ข้อความในรูปภาพ ในที่สุดก็ทำได้เสียที
GPT Image 1 สามารถเรนเดอร์คำได้ประมาณ 3-5 คำอย่างแม่นยำ แต่ GPT Image 2 ทำได้ทั้งย่อหน้า พร้อมการจัดช่องไฟ (kerning) ที่ถูกต้อง ในฟอนต์ที่เลือกได้ และรองรับหลายภาษา สิ่งนี้เพียงอย่างเดียวจะเปลี่ยนความเป็นไปได้สำหรับ:
- อินโฟกราฟิก (Infographics)
- ม็อกอัปสินค้าพร้อมข้อความจริง
- โปสเตอร์และภาพประกอบการตลาด
- ช่องการ์ตูนคอมิก
- UI wireframes พร้อมป้ายกำกับที่อ่านออก
ความเข้าใจฉาก + โลก
โมเดลมีความเข้าใจ ความสัมพันธ์ทางกายภาพ ในระดับใหม่ พรอมต์อย่าง "ถ้วยกาแฟที่มีไอความร้อนลอยขึ้นมา วางข้างแล็ปท็อปที่แสดงกราฟยอดขายที่กำลังพุ่งสูง แสงยามเช้าส่องผ่านหน้าต่างด้านซ้าย" จะสร้างฉากที่สอดคล้องกันจริงๆ — ทิศทางของไอความร้อนตรงตามหลักฟิสิกส์ มุมแสงจากหน้าต่างมีความสม่ำเสมอ และหน้าจอแล็ปท็อปมีกราฟที่อ่านออก
นี่เคยเป็นจุดที่อ่อนแอที่สุดของโมเดลสร้างภาพหลักๆ ทุกตัวจนกระทั่งเวอร์ชันนี้ปล่อยออกมา
การแก้ไขด้วยภาษาธรรมชาติ
ตอนนี้คุณสามารถสั่งว่า "ทำให้ท้องฟ้าดูมีพายุมากขึ้น โดยที่ส่วนอื่นยังคงเดิม" และโมเดลจะทำตามนั้นเป๊ะ ใน GPT Image 1 การแก้ไขมักจะสร้างภาพใหม่ทั้งหมดพร้อมองค์ประกอบที่เปลี่ยนไป แต่ GPT Image 2 จะรักษาทุกอย่างที่ไม่ได้ถูกสั่งให้แก้ไว้
สิ่งนี้ทำให้กระบวนการออกแบบซ้ำ (iterative design workflow) ใช้งานได้จริงเป็นครั้งแรก — ออกแบบเลย์เอาต์เพียงครั้งเดียว จากนั้นค่อยขัดเกลาด้วยภาษาแทนการเขียนพรอมต์ใหม่ทั้งหมด
ราคา
OpenAI ประกาศระดับราคาสำหรับ GPT Image 2 ไว้สามระดับ:
- Standard (1024x1024): ประมาณ $0.04 ต่อภาพ
- HD (สูงสุด 2048x2048): ประมาณ $0.08 ต่อภาพ
- Ultra (สูงสุด 4096x4096พร้อมการคำนวณที่นานกว่า): ประมาณ $0.15 ต่อภาพ
สำหรับระดับ Standard และ HD ราคานี้ต่ำกว่าแผน unlimited ของ Midjourney เมื่อคิดเป็นราคาต่อภาพ และมีความสามารถในการแข่งขันกับบริการโฮสต์ Stable Diffusion 4
ทำไมเรื่องนี้ถึงสำคัญสำหรับนักพัฒนา
การสร้างภาพเคยติดอยู่ในหมวดหมู่ "มีประโยชน์สำหรับมู้ดบอร์ด แต่ไม่ใช่ผลงานชิ้นสุดท้าย" มาตั้งแต่ DALL-E 3 แต่ GPT Image 2 ได้ก้าวข้ามไปสู่ระดับ พร้อมใช้งานในโปรดักชันสำหรับผลงานจริง (production-ready):
- หน้าการตลาด (Marketing pages) สามารถมีภาพที่สร้างขึ้นจริงตามแต่ละแคมเปญ แทนการใช้ภาพสต็อกหรือการออกแบบด้วยมือ
- อินเทอร์เฟซแอป (App interfaces) สามารถมีภาพร่างแรกที่ถูกสร้างขึ้นภายในแอปได้เลย
- เว็บไซต์เนื้อหา (Content sites) สามารถมีภาพประกอบในทุกบทความแทนที่จะมีแค่ภาพหน้าปก
- การถ่ายภาพสินค้า สำหรับอีคอมเมิร์ซขนาดเล็ก (อาหาร, งานฝีมือ, dropshipping) สามารถทำได้โดยไม่ต้องมีสตูดิโอ
Y Build × GPT Image 2 — การเชื่อมต่อแบบ T+0
Y Build ได้ผสาน GPT Image 2 ทันทีที่ API ของ OpenAI เปิดใช้งานในวันนี้ ไม่ต้องรอคิว ไม่มีสถานะเบต้า
คุณสามารถใช้งานได้ผ่านโฟลว์ต่างๆ ใน Y Build ดังนี้:
1. สร้างโดยตรงในห้องสนทนาใดก็ได้
ในกลุ่มแชทใดก็ได้ของ Y Build ให้แท็กเอเจนท์ Designer:
@Designer สร้างภาพ hero image สำหรับเว็บไซต์พอดแคสต์ของฉัน — ให้ความรู้สึกแบบ dark academia มีหนังสือและไมโครโฟน แสงสลัวโทนอุ่น
เอเจนท์ Designer จะเลือกใช้ GPT Image 2 เป็นค่าเริ่มต้นสำหรับงานแนวสมจริง (และจะสลับไปใช้ DALL-E 3 หรือ Stable Diffusion 4 สำหรับสไตล์เฉพาะเจาะจง)
2. การแก้ไขเฉพาะจุด (In-place editing)
วางรูปภาพใดก็ได้ (ที่สร้างขึ้นหรืออัปโหลด) ลงในห้องและสั่งให้แก้ไขด้วยภาษาธรรมชาติ:
@Designer เปลี่ยนไมโครโฟนให้เป็นสีเงินแทนสีดำ ส่วนอย่างอื่นคงเดิมไว้
Y Build จะติดตามประวัติการแก้ไข — ทุกการปรับเปลี่ยนจะเป็นเวอร์ชันใหม่ในเวิร์กสเปซของคุณ คุณจึงสามารถย้อนกลับได้ตลอดเวลา
3. การสร้างแบบกลุ่มอัตโนมัติ (Automated batch generation)
สำหรับอีคอมเมิร์ซหรือเว็บไซต์เนื้อหาที่ต้องการภาพจำนวนมาก เอเจนท์ Virtuoso สามารถสั่งรัน GPT Image 2 ตามรายการพรอมต์ เขียนผลลัพธ์ลงในเวิร์กสเปซ และคอมมิตไปยังเรโพของคุณได้
@Virtuoso สร้างภาพ product hero สำหรับสินค้าทั้ง 24 รายการในproducts.csvบันทึกเป็น/public/products/{slug}.jpgและทำการ commit
45 นาทีต่อมา คุณจะได้ภาพ 24 ภาพที่ผ่านการตรวจสอบโดยเอเจนท์ Reviewer เพื่อความสอดคล้องของแบรนด์ และเตรียมไว้ในบรันช์เพื่อให้คุณทำการเมิร์จ (merge)
4. การผสานรวมเวิร์กสเปซ
ภาพที่สร้างขึ้นทั้งหมดจะถูกเก็บไว้ในเวิร์กสเปซ Y Build ของคุณ เป็นไฟล์จริงที่แก้ไขได้ใน block editor, ส่งออกไปยังเรโพของคุณได้ และมีการจัดเก็บเวอร์ชัน
ราคาภายใน Y Build
- ระดับ Free: สร้างด้วย GPT Image 2 Standard ได้ 10 ภาพ/เดือน (หากเกินจากนี้จะสลับไปใช้ DALL-E 3)
- Pro ($69/เดือน): Standard ไม่จำกัด, HD 200 ภาพ/เดือน, Ultra 50 ภาพ/เดือน
- Max ($199/เดือน): ทุกอย่างไม่จำกัด รวมถึง Ultra
แล้ว DALL-E 3 และ GPT Image 1 ล่ะ?
ทั้งคู่ยังคงมีให้ใช้งานใน Y Build สำหรับบางกรณีการใช้งาน (เช่น ภาพประกอบเชิงศิลปะ หรือสไตล์อาร์ตเฉพาะทาง) ที่พวกมันยังทำได้ดีกว่า เอเจนท์ Designer จะเลือกให้อัตโนมัติตามพรอมต์ หรือคุณสามารถบังคับเลือกโมเดลเฉพาะได้:
@Designer สร้างด้วย gpt-image-2: [พรอมต์]
@Designer สร้างด้วย dalle-3: [พรอมต์]
Stable Diffusion 4 ยังมีให้เลือกใช้งานฟรีสำหรับผู้ใช้ Pro — แม้ความสมจริงจะน้อยกว่า GPT Image 2 เล็กน้อย แต่ไม่มีการเรียกเก็บค่าคำนวณสำหรับผู้ใช้ Pro
วิธีเริ่มใช้งานตั้งแต่วันนี้
- สมัครใช้งาน Y Build ฟรี — ไม่ต้องใช้บัตรเครดิต
- เริ่มห้องสนทนาด้วยเอเจนท์ Conductor
- สั่งให้เอเจนท์ Designer สร้างภาพ — GPT Image 2 จะเป็นค่าเริ่มต้น