GPT Image 2 Đã Ra Mắt: Mô Hình Hình Ảnh Mạnh Mẽ Nhất Của OpenAI, Có Mặt Ngay Ngày Đầu Tiên Trên Y Build
OpenAI vừa ra mắt GPT Image 2 — đầu ra chân thực như ảnh chụp, văn bản trong ảnh đáng tin cậy, hiểu biết bối cảnh theo mô hình thế giới. Chúng tôi sẽ đề cập đến những điểm mới, lý do tại sao nó quan trọng đối với các nhà thiết kế và nhà phát triển, và cách Y Build tích hợp nó ngay trong ngày đầu tiên (T+0).
TL;DR
OpenAI đã phát hành GPT Image 2 hôm nay — thế hệ kế nhiệm của gpt-image-1 và DALL-E 3. Dựa trên các tài liệu ra mắt, đây là mô hình tạo hình ảnh công khai mạnh mẽ nhất cho đến nay:
- Tính chân thực (Photorealism) ở cấp độ khiến GPT Image 1 trông giống như một mô hình của năm 2023
- Văn bản trong ảnh (Text-in-image) thực sự hiển thị chính xác, bao gồm cả các đoạn văn dài và nhiều phông chữ khác nhau
- Hiểu biết bối cảnh — các mối quan hệ không gian, vật lý, sự gắn kết giữa bóng tối và ánh sáng
- Độ chính xác về bố cục — các prompt phức tạp với hơn 5 đối tượng được duy trì chính xác
- Chỉnh sửa — chỉnh sửa trực tiếp bằng ngôn ngữ tự nhiên mà vẫn bảo toàn phần còn lại của khung cảnh
- Tốc độ — 4-6 giây cho hình ảnh đầu tiên ở độ phân giải 1024x1024
Có gì thực sự mới?
Tính chân thực mà không có "vẻ ngoài AI"
Khi đặt cạnh GPT Image 1, những dấu hiệu nhận biết của hình ảnh do AI tạo ra — dị tật tinh vi ở bàn tay, làn da quá mịn, ánh sáng phi lý — phần lớn đã biến mất trong GPT Image 2. Các ví dụ của OpenAI nhấn mạnh vào kết cấu da, chi tiết nang tóc và ánh sáng vi mô trên các bề mặt.
Điều này không có nghĩa là nó không thể bị phát hiện — các trình phát hiện hình ảnh AI vẫn nhận ra ở mức ~85% — nhưng tiêu chuẩn hình ảnh đã nhảy vọt.
Văn bản trong ảnh, cuối cùng cũng đã xong
GPT Image 1 có thể hiển thị khoảng 3-5 từ một cách đáng tin cậy. GPT Image 2 có thể xử lý cả đoạn văn, với khoảng cách chữ (kerning) chính xác, bằng các phông chữ có thể lựa chọn, trên nhiều ngôn ngữ. Chỉ riêng điều này đã thay đổi những gì khả thi cho:
- Infographics
- Bản phác thảo sản phẩm (product mockups) với nội dung thật
- Áp phích và hình ảnh marketing
- Các khung truyện tranh
- Wireframe UI với các nhãn có thể đọc được
Hiểu biết về bối cảnh + thế giới
Mô hình hiểu các mối quan hệ vật lý ở một cấp độ mới. Các prompt như "một tách cà phê với hơi nước bốc lên, cạnh một chiếc máy tính xách tay hiển thị biểu đồ doanh số đang tăng, ánh sáng buổi sáng chiếu qua cửa sổ bên trái" thực sự tạo ra những khung cảnh mạch lạc — hướng hơi nước phù hợp với vật lý, góc sáng của cửa sổ nhất quán, màn hình máy tính xách tay có biểu đồ rõ ràng.
Đây từng là trục yếu nhất của mọi mô hình hình ảnh lớn cho đến bản phát hành này.
Chỉnh sửa bằng ngôn ngữ tự nhiên
Giờ đây bạn có thể nói "làm cho bầu trời dông bão hơn, giữ nguyên mọi thứ khác" và mô hình sẽ làm chính xác như vậy. Trong GPT Image 1, việc chỉnh sửa thường tái tạo lại toàn bộ hình ảnh với bố cục khác. GPT Image 2 bảo toàn mọi thứ không bị tác động đến.
Điều này lần đầu tiên khiến quy trình thiết kế lặp lại (iterative design workflows) trở nên khả thi — thiết kế bố cục một lần, sau đó tinh chỉnh bằng ngôn ngữ thay vì phải nhập lại prompt (re-prompting).
Giá cả
OpenAI đã công bố ba gói cho GPT Image 2:
- Standard (1024x1024): khoảng $0.04 mỗi ảnh
- HD (lên đến 2048x2048): khoảng $0.08 mỗi ảnh
- Ultra (lên đến 4096x4096, thời gian tính toán lâu hơn): khoảng $0.15 mỗi ảnh
Mức giá này thấp hơn gói không giới hạn của Midjourney tính trên chi phí mỗi ảnh cho bản Standard và HD; cạnh tranh với các dịch vụ lưu trữ Stable Diffusion 4.
Tại sao điều này quan trọng đối với các nhà phát triển
Việc tạo hình ảnh đã bị kẹt trong danh mục "hữu ích cho mood board, không dành cho sản phẩm cuối" kể từ DALL-E 3. GPT Image 2 đã bước sang ngưỡng sẵn sàng cho sản xuất (production-ready) cho các sản phẩm thực tế:
- Các trang Marketing có thể có hình ảnh thực tế được tạo cho mỗi chiến dịch, thay vì ảnh stock hoặc các phiên thiết kế thủ công
- Giao diện ứng dụng có thể có các hình ảnh phác thảo đầu tiên được tạo trực tiếp (inline)
- Các trang nội dung có thể minh họa cho mọi bài viết thay vì chỉ các bài viết nổi bật
- Chụp ảnh sản phẩm cho thương mại điện tử nhỏ (thực phẩm, đồ thủ công, dropshipping) là khả thi mà không cần studio
Y Build × GPT Image 2 — Tích hợp T+0
Y Build đã tích hợp GPT Image 2 ngay khi API của OpenAI hoạt động hôm nay. Không có hàng đợi, không có nhãn beta.
Bạn có thể sử dụng nó thông qua các luồng sau của Y Build:
1. Tạo trực tiếp trong bất kỳ phòng nào
Trong bất kỳ cuộc trò chuyện nhóm nào trên Y Build, hãy gắn thẻ agent Designer:
@Designer Generate a hero image for my podcast website — dark academia feel, book and microphone, dim warm light.
Agent Designer sẽ chọn GPT Image 2 theo mặc định cho các công việc cần tính chân thực (sẽ chuyển về DALL-E 3 hoặc Stable Diffusion 4 cho các phong cách cụ thể).
2. Chỉnh sửa tại chỗ
Thả bất kỳ hình ảnh nào (được tạo hoặc tải lên) vào phòng và yêu cầu chỉnh sửa bằng ngôn ngữ tự nhiên:
@Designer Make the microphone silver instead of black, everything else stays.
Y Build theo dõi lịch sử chỉnh sửa — mỗi lần lặp lại là một phiên bản mới trong không gian làm việc của bạn, vì vậy bạn có thể hoàn tác (roll back).
3. Tạo hàng loạt tự động
Đối với các trang thương mại điện tử hoặc nội dung cần nhiều hình ảnh, agent Virtuoso có thể chạy GPT Image 2 trên một danh sách các prompt, ghi kết quả vào không gian làm việc của bạn và commit chúng vào repo.
@Virtuoso Generate product hero images for each of the 24 items inproducts.csv, save as/public/products/{slug}.jpg, and commit.
45 phút sau, bạn có 24 hình ảnh, đã được agent Reviewer kiểm tra tính nhất quán của thương hiệu, được dàn dựng trong một nhánh (branch) để bạn merge.
4. Tích hợp không gian làm việc
Tất cả hình ảnh được tạo đều nằm trong không gian làm việc Y Build của bạn. Đó là các tệp thực — có thể chỉnh sửa trong trình chỉnh sửa khối (block editor), có thể xuất sang repo của bạn và được quản lý phiên bản.
Giá cả trong Y Build
- Gói Free: 10 lượt tạo GPT Image 2 Standard/tháng (nếu không sẽ chuyển về DALL-E 3 cho gói miễn phí)
- Gói Pro ($69/tháng): Không giới hạn Standard, 200 lượt HD/tháng, 50 lượt Ultra/tháng
- Gói Max ($199/tháng): Không giới hạn mọi thứ bao gồm cả Ultra
Còn DALL-E 3 và GPT Image 1 thì sao?
Cả hai vẫn có sẵn trong Y Build. Một số trường hợp sử dụng (minh họa cách điệu, phong cách nghệ thuật cụ thể) vẫn ưu tiên chúng. Agent Designer sẽ tự động chọn dựa trên prompt, hoặc bạn có thể chỉ định một mô hình cụ thể:
@Designer Generate with gpt-image-2: [prompt]
@Designer Generate with dalle-3: [prompt]
Stable Diffusion 4 cũng có sẵn như một tùy chọn miễn phí cho gói Pro — tính chân thực thấp hơn một chút so với GPT Image 2 nhưng không tính phí compute cho người dùng Pro.
Cách bắt đầu sử dụng ngay hôm nay
- Đăng ký Y Build miễn phí — không cần thẻ tín dụng
- Bắt đầu bất kỳ phòng nào với agent Conductor của bạn
- Yêu cầu agent Designer tạo một hình ảnh — GPT Image 2 là mặc định