GPT Image 2 มาแล้ว: โมเดลสร้างภาพที่ทรงพลังที่สุดของ OpenAI ใช้งานได้ตั้งแต่วันแรกบน Y Build

TL;DR

OpenAI เปิดตัว GPT Image 2 ในวันนี้ — ผู้สืบทอดของ gpt-image-1 และ DALL-E 3 จากข้อมูลการเปิดตัว นี่คือโมเดลสร้างภาพที่ทรงพลังที่สุดเท่าที่มีให้ใช้งานสาธารณะในปัจจุบัน:

Photorealism (ความสมจริงของภาพถ่าย) ในระดับที่ทำให้ GPT Image 1 ดูเหมือนโมเดลจากปี 2023 ไปเลย
Text-in-image (ข้อความในภาพ) ที่อ่านได้ถูกต้องจริงๆ รวมถึงย่อหน้าที่ยาวและฟอนต์ที่หลากหลาย
Scene understanding (ความเข้าใจฉาก) — ความสัมพันธ์เชิงพื้นที่ ฟิสิกส์ ความสอดคล้องของแสงและเงา
Compositional accuracy (ความแม่นยำในการจัดองค์ประกอบ) — รองรับพรอมต์ที่ซับซ้อนที่มีวัตถุ 5 อย่างขึ้นไปได้อย่างถูกต้อง
Editing (การแก้ไข) — การแก้ไขเฉพาะจุดด้วยภาษาธรรมชาติที่ยังคงรักษาฉากส่วนที่เหลือไว้ได้
Speed (ความเร็ว) — ใช้เวลา 4-6 วินาทีสำหรับภาพแรกที่ความละเอียด 1024x1024

Y Build ได้ผสานการทำงานของ GPT Image 2 บน T+0 (วันเดียวกับที่ OpenAI ปล่อย) เรียบร้อยแล้ว สมาชิกระดับ Pro และ Max ทุกคนสามารถใช้งานได้ทันทีผ่านเอเจนท์ Designer หรือ Illustrator ส่วนผู้ใช้งานระดับ Free จะได้รับสิทธิ์พรีวิวในจำนวนจำกัด

มีอะไรใหม่บ้าง

ความสมจริงโดยไม่มี "ลุคแบบ AI"

เมื่อเปรียบเทียบกับ GPT Image 1 ร่องรอยที่บ่งบอกว่าเป็นภาพที่สร้างด้วย AI เช่น ความผิดปกติของมือเพียงเล็กน้อย ผิวที่เรียบเนียนเกินไป หรือแสงที่เป็นไปไม่ได้ ส่วนใหญ่ได้หายไปใน GPT Image 2 ตัวอย่างของ OpenAI เน้นไปที่พื้นผิวของผิวหนัง รายละเอียดของรูขุมขน และแสงระดับไมโครบนพื้นผิวต่างๆ

นี่ไม่ได้หมายความว่าจะตรวจจับไม่ได้เลย — เครื่องมือตรวจจับภาพ AI ยังคงตรวจพบได้ที่ประมาณ 85% — แต่มาตรฐานด้านภาพนั้นก้าวกระโดดขึ้นอย่างมาก

ข้อความในรูปภาพ ในที่สุดก็ทำได้เสียที

GPT Image 1 สามารถเรนเดอร์คำได้ประมาณ 3-5 คำอย่างแม่นยำ แต่ GPT Image 2 ทำได้ทั้งย่อหน้า พร้อมการจัดช่องไฟ (kerning) ที่ถูกต้อง ในฟอนต์ที่เลือกได้ และรองรับหลายภาษา สิ่งนี้เพียงอย่างเดียวจะเปลี่ยนความเป็นไปได้สำหรับ:

อินโฟกราฟิก (Infographics)
ม็อกอัปสินค้าพร้อมข้อความจริง
โปสเตอร์และภาพประกอบการตลาด
ช่องการ์ตูนคอมิก
UI wireframes พร้อมป้ายกำกับที่อ่านออก

ความเข้าใจฉาก + โลก

โมเดลมีความเข้าใจ ความสัมพันธ์ทางกายภาพ ในระดับใหม่ พรอมต์อย่าง "ถ้วยกาแฟที่มีไอความร้อนลอยขึ้นมา วางข้างแล็ปท็อปที่แสดงกราฟยอดขายที่กำลังพุ่งสูง แสงยามเช้าส่องผ่านหน้าต่างด้านซ้าย" จะสร้างฉากที่สอดคล้องกันจริงๆ — ทิศทางของไอความร้อนตรงตามหลักฟิสิกส์ มุมแสงจากหน้าต่างมีความสม่ำเสมอ และหน้าจอแล็ปท็อปมีกราฟที่อ่านออก

นี่เคยเป็นจุดที่อ่อนแอที่สุดของโมเดลสร้างภาพหลักๆ ทุกตัวจนกระทั่งเวอร์ชันนี้ปล่อยออกมา

การแก้ไขด้วยภาษาธรรมชาติ

ตอนนี้คุณสามารถสั่งว่า "ทำให้ท้องฟ้าดูมีพายุมากขึ้น โดยที่ส่วนอื่นยังคงเดิม" และโมเดลจะทำตามนั้นเป๊ะ ใน GPT Image 1 การแก้ไขมักจะสร้างภาพใหม่ทั้งหมดพร้อมองค์ประกอบที่เปลี่ยนไป แต่ GPT Image 2 จะรักษาทุกอย่างที่ไม่ได้ถูกสั่งให้แก้ไว้

สิ่งนี้ทำให้กระบวนการออกแบบซ้ำ (iterative design workflow) ใช้งานได้จริงเป็นครั้งแรก — ออกแบบเลย์เอาต์เพียงครั้งเดียว จากนั้นค่อยขัดเกลาด้วยภาษาแทนการเขียนพรอมต์ใหม่ทั้งหมด

ราคา

OpenAI ประกาศระดับราคาสำหรับ GPT Image 2 ไว้สามระดับ:

Standard (1024x1024): ประมาณ $0.04 ต่อภาพ

HD (สูงสุด 2048x2048): ประมาณ $0.08 ต่อภาพ

Ultra (สูงสุด 4096x4096พร้อมการคำนวณที่นานกว่า): ประมาณ $0.15 ต่อภาพ

สำหรับระดับ Standard และ HD ราคานี้ต่ำกว่าแผน unlimited ของ Midjourney เมื่อคิดเป็นราคาต่อภาพ และมีความสามารถในการแข่งขันกับบริการโฮสต์ Stable Diffusion 4

ทำไมเรื่องนี้ถึงสำคัญสำหรับนักพัฒนา

การสร้างภาพเคยติดอยู่ในหมวดหมู่ "มีประโยชน์สำหรับมู้ดบอร์ด แต่ไม่ใช่ผลงานชิ้นสุดท้าย" มาตั้งแต่ DALL-E 3 แต่ GPT Image 2 ได้ก้าวข้ามไปสู่ระดับ พร้อมใช้งานในโปรดักชันสำหรับผลงานจริง (production-ready):

หน้าการตลาด (Marketing pages) สามารถมีภาพที่สร้างขึ้นจริงตามแต่ละแคมเปญ แทนการใช้ภาพสต็อกหรือการออกแบบด้วยมือ
อินเทอร์เฟซแอป (App interfaces) สามารถมีภาพร่างแรกที่ถูกสร้างขึ้นภายในแอปได้เลย
เว็บไซต์เนื้อหา (Content sites) สามารถมีภาพประกอบในทุกบทความแทนที่จะมีแค่ภาพหน้าปก
การถ่ายภาพสินค้า สำหรับอีคอมเมิร์ซขนาดเล็ก (อาหาร, งานฝีมือ, dropshipping) สามารถทำได้โดยไม่ต้องมีสตูดิโอ

ความหมายในทางปฏิบัติคือ: ต้นทุนของ "ภาพประกอบเพิ่มอีกหนึ่งภาพ" ลดลง 10-100 เท่า ผลิตภัณฑ์ใดก็ตามที่เคยข้ามการใช้ภาพประกอบเพราะต้นทุนไม่คุ้มค่า ตอนนี้มีเหตุผลที่จะใส่เพิ่มเข้าไปแล้ว

Y Build × GPT Image 2 — การเชื่อมต่อแบบ T+0

Y Build ได้ผสาน GPT Image 2 ทันทีที่ API ของ OpenAI เปิดใช้งานในวันนี้ ไม่ต้องรอคิว ไม่มีสถานะเบต้า

คุณสามารถใช้งานได้ผ่านโฟลว์ต่างๆ ใน Y Build ดังนี้:

1. สร้างโดยตรงในห้องสนทนาใดก็ได้

ในกลุ่มแชทใดก็ได้ของ Y Build ให้แท็กเอเจนท์ Designer:

@Designer สร้างภาพ hero image สำหรับเว็บไซต์พอดแคสต์ของฉัน — ให้ความรู้สึกแบบ dark academia มีหนังสือและไมโครโฟน แสงสลัวโทนอุ่น

เอเจนท์ Designer จะเลือกใช้ GPT Image 2 เป็นค่าเริ่มต้นสำหรับงานแนวสมจริง (และจะสลับไปใช้ DALL-E 3 หรือ Stable Diffusion 4 สำหรับสไตล์เฉพาะเจาะจง)

2. การแก้ไขเฉพาะจุด (In-place editing)

วางรูปภาพใดก็ได้ (ที่สร้างขึ้นหรืออัปโหลด) ลงในห้องและสั่งให้แก้ไขด้วยภาษาธรรมชาติ:

@Designer เปลี่ยนไมโครโฟนให้เป็นสีเงินแทนสีดำ ส่วนอย่างอื่นคงเดิมไว้

Y Build จะติดตามประวัติการแก้ไข — ทุกการปรับเปลี่ยนจะเป็นเวอร์ชันใหม่ในเวิร์กสเปซของคุณ คุณจึงสามารถย้อนกลับได้ตลอดเวลา

3. การสร้างแบบกลุ่มอัตโนมัติ (Automated batch generation)

สำหรับอีคอมเมิร์ซหรือเว็บไซต์เนื้อหาที่ต้องการภาพจำนวนมาก เอเจนท์ Virtuoso สามารถสั่งรัน GPT Image 2 ตามรายการพรอมต์ เขียนผลลัพธ์ลงในเวิร์กสเปซ และคอมมิตไปยังเรโพของคุณได้

@Virtuoso สร้างภาพ product hero สำหรับสินค้าทั้ง 24 รายการใน products.csv บันทึกเป็น /public/products/{slug}.jpg และทำการ commit

45 นาทีต่อมา คุณจะได้ภาพ 24 ภาพที่ผ่านการตรวจสอบโดยเอเจนท์ Reviewer เพื่อความสอดคล้องของแบรนด์ และเตรียมไว้ในบรันช์เพื่อให้คุณทำการเมิร์จ (merge)

4. การผสานรวมเวิร์กสเปซ

ภาพที่สร้างขึ้นทั้งหมดจะถูกเก็บไว้ในเวิร์กสเปซ Y Build ของคุณ เป็นไฟล์จริงที่แก้ไขได้ใน block editor, ส่งออกไปยังเรโพของคุณได้ และมีการจัดเก็บเวอร์ชัน

ราคาภายใน Y Build

ระดับ Free: สร้างด้วย GPT Image 2 Standard ได้ 10 ภาพ/เดือน (หากเกินจากนี้จะสลับไปใช้ DALL-E 3)
Pro ($69/เดือน): Standard ไม่จำกัด, HD 200 ภาพ/เดือน, Ultra 50 ภาพ/เดือน
Max ($199/เดือน): ทุกอย่างไม่จำกัด รวมถึง Ultra

ไม่จำเป็นต้องมี API key ของ OpenAI แยกต่างหาก — เราได้รวมสิทธิ์การเข้าถึงไว้ให้แล้ว หากคุณมีเครดิตกับ OpenAI สำหรับงานอื่นอยู่แล้วก็ไม่มีปัญหาทับซ้อนกัน เพราะ Y Build มีโควตาแยกต่างหาก

แล้ว DALL-E 3 และ GPT Image 1 ล่ะ?

ทั้งคู่ยังคงมีให้ใช้งานใน Y Build สำหรับบางกรณีการใช้งาน (เช่น ภาพประกอบเชิงศิลปะ หรือสไตล์อาร์ตเฉพาะทาง) ที่พวกมันยังทำได้ดีกว่า เอเจนท์ Designer จะเลือกให้อัตโนมัติตามพรอมต์ หรือคุณสามารถบังคับเลือกโมเดลเฉพาะได้:

@Designer สร้างด้วย gpt-image-2: [พรอมต์]

@Designer สร้างด้วย dalle-3: [พรอมต์]

Stable Diffusion 4 ยังมีให้เลือกใช้งานฟรีสำหรับผู้ใช้ Pro — แม้ความสมจริงจะน้อยกว่า GPT Image 2 เล็กน้อย แต่ไม่มีการเรียกเก็บค่าคำนวณสำหรับผู้ใช้ Pro

วิธีเริ่มใช้งานตั้งแต่วันนี้

สมัครใช้งาน Y Build ฟรี — ไม่ต้องใช้บัตรเครดิต
เริ่มห้องสนทนาด้วยเอเจนท์ Conductor
สั่งให้เอเจนท์ Designer สร้างภาพ — GPT Image 2 จะเป็นค่าเริ่มต้น

หากคุณเป็นผู้ใช้งาน Y Build อยู่แล้ว เพียงแค่เมนชัน @Designer ในห้องใดก็ได้ — GPT Image 2 พร้อมใช้งานแล้ว

คำถามที่พบบ่อย (FAQ)

GPT Image 2 ดีกว่า Midjourney v7 จริงหรือ?

สำหรับความสมจริงของภาพถ่ายและข้อความในภาพ คำตอบคือใช่ แต่สำหรับงานศิลปะที่มีสไตล์ (อนิเมะ, คอนเซปต์อาร์ต, แนวภาพวาด) Midjourney v7 ยังคงมีความได้เปรียบ ดีไซน์เนอร์ส่วนใหญ่ที่เรารู้จักจะเลือกใช้ทั้งสองอย่าง

GPT Image 2 สามารถสร้างเนื้อหา NSFW ได้หรือไม่?

ไม่ได้ เป็นไปตามนโยบายเนื้อหาของ OpenAI

รองรับความละเอียดเท่าใดบ้าง?

Standard 1024x1024 (จัตุรัส), 1024x1792, 1792x1024 ส่วน HD รองรับสูงสุด 2048 ในด้านยาว และ Ultra สูงสุดถึง 4096 โดยอัตราส่วนภาพที่ไม่ใช่สี่เหลี่ยมจัตุรัสจะเป็นแบบ native ไม่ใช่การนำมาขยาย (upscaled)

Y Build มีการทำแคช (cache) รูปที่สร้างหรือไม่?

ใช่ พรอมต์ที่เหมือนกันทุกประการภายในห้องเดียวกันจะดึงภาพจากแคชมาแสดงแทนการสร้างใหม่ ซึ่งช่วยประหยัดโควตาและโหลดภาพได้ทันที

"การผสานการทำงานแบบ T+0" ของ Y Build ทำงานอย่างไร?

เฟรมเวิร์กเอเจนท์ของ Y Build แยกชั้นของโมเดลออกจากชั้นการจัดการ (orchestration) เมื่อ OpenAI เปิดตัว endpoint ของโมเดลใหม่ เราเพียงแค่เพิ่มมันลงในโมเดลรีจิสทรีและปรับจูนตรรกะการเลือกเส้นทางของเอเจนท์ Designer ซึ่งปกติจะใช้เวลาประมาณ 2 ชั่วโมง สำหรับการเปิดตัวครั้งใหญ่แบบนี้ เราจะจัดเตรียมระบบไว้ล่วงหน้าตามข้อมูลภายใต้ NDA และใช้งานทันทีที่ public API เปิดให้เข้าถึง

ฉันสามารถไฟน์จูน (fine-tune) GPT Image 2 ให้เข้ากับแบรนด์ของฉันได้ไหม?

การไฟน์จูนโมเดลภาพของ OpenAI ยังไม่เปิดให้ใช้งาน (ข้อมูล ณ เมษายน 2026) สำหรับการสร้างภาพที่สอดคล้องกับแบรนด์ เอเจนท์ Designer ของ Y Build จะรักษาคู่มือสไตล์ (style guides) ของแต่ละโปรเจกต์ ซึ่งจะถูกแนบไปกับทุกพรอมต์ — ให้ผลลัพธ์แบบเดียวกันโดยไม่ต้องเทรนโมเดลใหม่

จะมีอะไรเกิดขึ้นต่อไปสำหรับโมเดลสร้างภาพในปี 2026?

Stable Diffusion 4 จะเริ่มใช้งานในเดือนพฤษภาคม; Midjourney v8 มีข่าวลือว่าจะมาในฤดูร้อน; และคาดว่า Adobe จะประกาศโมเดลที่ปลอดภัยเชิงพาณิชย์เต็มรูปแบบที่งาน Max ในเดือนตุลาคม เราจะผสานการทำงานของแต่ละตัวในวันที่เปิดตัวทันที