GPT Image 2 Đã Ra Mắt: Mô Hình Hình Ảnh Mạnh Mẽ Nhất Của OpenAI, Có Mặt Ngay Ngày Đầu Tiên Trên Y Build

TL;DR

OpenAI đã phát hành GPT Image 2 hôm nay — thế hệ kế nhiệm của gpt-image-1 và DALL-E 3. Dựa trên các tài liệu ra mắt, đây là mô hình tạo hình ảnh công khai mạnh mẽ nhất cho đến nay:

Tính chân thực (Photorealism) ở cấp độ khiến GPT Image 1 trông giống như một mô hình của năm 2023
Văn bản trong ảnh (Text-in-image) thực sự hiển thị chính xác, bao gồm cả các đoạn văn dài và nhiều phông chữ khác nhau
Hiểu biết bối cảnh — các mối quan hệ không gian, vật lý, sự gắn kết giữa bóng tối và ánh sáng
Độ chính xác về bố cục — các prompt phức tạp với hơn 5 đối tượng được duy trì chính xác
Chỉnh sửa — chỉnh sửa trực tiếp bằng ngôn ngữ tự nhiên mà vẫn bảo toàn phần còn lại của khung cảnh
Tốc độ — 4-6 giây cho hình ảnh đầu tiên ở độ phân giải 1024x1024

Y Build đã tích hợp GPT Image 2 vào lúc T+0 (cùng ngày với đợt phát hành của OpenAI). Mọi người dùng đăng ký gói Pro và Max đều có thể sử dụng ngay bây giờ thông qua bất kỳ agent Designer hoặc Illustrator nào. Gói miễn phí (Free tier) sẽ được xem trước có giới hạn.

Có gì thực sự mới?

Tính chân thực mà không có "vẻ ngoài AI"

Khi đặt cạnh GPT Image 1, những dấu hiệu nhận biết của hình ảnh do AI tạo ra — dị tật tinh vi ở bàn tay, làn da quá mịn, ánh sáng phi lý — phần lớn đã biến mất trong GPT Image 2. Các ví dụ của OpenAI nhấn mạnh vào kết cấu da, chi tiết nang tóc và ánh sáng vi mô trên các bề mặt.

Điều này không có nghĩa là nó không thể bị phát hiện — các trình phát hiện hình ảnh AI vẫn nhận ra ở mức ~85% — nhưng tiêu chuẩn hình ảnh đã nhảy vọt.

Văn bản trong ảnh, cuối cùng cũng đã xong

GPT Image 1 có thể hiển thị khoảng 3-5 từ một cách đáng tin cậy. GPT Image 2 có thể xử lý cả đoạn văn, với khoảng cách chữ (kerning) chính xác, bằng các phông chữ có thể lựa chọn, trên nhiều ngôn ngữ. Chỉ riêng điều này đã thay đổi những gì khả thi cho:

Infographics
Bản phác thảo sản phẩm (product mockups) với nội dung thật
Áp phích và hình ảnh marketing
Các khung truyện tranh
Wireframe UI với các nhãn có thể đọc được

Hiểu biết về bối cảnh + thế giới

Mô hình hiểu các mối quan hệ vật lý ở một cấp độ mới. Các prompt như "một tách cà phê với hơi nước bốc lên, cạnh một chiếc máy tính xách tay hiển thị biểu đồ doanh số đang tăng, ánh sáng buổi sáng chiếu qua cửa sổ bên trái" thực sự tạo ra những khung cảnh mạch lạc — hướng hơi nước phù hợp với vật lý, góc sáng của cửa sổ nhất quán, màn hình máy tính xách tay có biểu đồ rõ ràng.

Đây từng là trục yếu nhất của mọi mô hình hình ảnh lớn cho đến bản phát hành này.

Chỉnh sửa bằng ngôn ngữ tự nhiên

Giờ đây bạn có thể nói "làm cho bầu trời dông bão hơn, giữ nguyên mọi thứ khác" và mô hình sẽ làm chính xác như vậy. Trong GPT Image 1, việc chỉnh sửa thường tái tạo lại toàn bộ hình ảnh với bố cục khác. GPT Image 2 bảo toàn mọi thứ không bị tác động đến.

Điều này lần đầu tiên khiến quy trình thiết kế lặp lại (iterative design workflows) trở nên khả thi — thiết kế bố cục một lần, sau đó tinh chỉnh bằng ngôn ngữ thay vì phải nhập lại prompt (re-prompting).

Giá cả

OpenAI đã công bố ba gói cho GPT Image 2:

Standard (1024x1024): khoảng $0.04 mỗi ảnh

HD (lên đến 2048x2048): khoảng $0.08 mỗi ảnh

Ultra (lên đến 4096x4096, thời gian tính toán lâu hơn): khoảng $0.15 mỗi ảnh

Mức giá này thấp hơn gói không giới hạn của Midjourney tính trên chi phí mỗi ảnh cho bản Standard và HD; cạnh tranh với các dịch vụ lưu trữ Stable Diffusion 4.

Tại sao điều này quan trọng đối với các nhà phát triển

Việc tạo hình ảnh đã bị kẹt trong danh mục "hữu ích cho mood board, không dành cho sản phẩm cuối" kể từ DALL-E 3. GPT Image 2 đã bước sang ngưỡng sẵn sàng cho sản xuất (production-ready) cho các sản phẩm thực tế:

Các trang Marketing có thể có hình ảnh thực tế được tạo cho mỗi chiến dịch, thay vì ảnh stock hoặc các phiên thiết kế thủ công
Giao diện ứng dụng có thể có các hình ảnh phác thảo đầu tiên được tạo trực tiếp (inline)
Các trang nội dung có thể minh họa cho mọi bài viết thay vì chỉ các bài viết nổi bật
Chụp ảnh sản phẩm cho thương mại điện tử nhỏ (thực phẩm, đồ thủ công, dropshipping) là khả thi mà không cần studio

Ý nghĩa thực tế là: chi phí cho "thêm một hình ảnh nữa" đã giảm từ 10-100 lần. Bất kỳ sản phẩm nào trước đây thường bỏ qua hình ảnh vì chi phí không xứng đáng thì giờ đây đã có lý do để thêm chúng vào.

Y Build × GPT Image 2 — Tích hợp T+0

Y Build đã tích hợp GPT Image 2 ngay khi API của OpenAI hoạt động hôm nay. Không có hàng đợi, không có nhãn beta.

Bạn có thể sử dụng nó thông qua các luồng sau của Y Build:

1. Tạo trực tiếp trong bất kỳ phòng nào

Trong bất kỳ cuộc trò chuyện nhóm nào trên Y Build, hãy gắn thẻ agent Designer:

@Designer Generate a hero image for my podcast website — dark academia feel, book and microphone, dim warm light.

Agent Designer sẽ chọn GPT Image 2 theo mặc định cho các công việc cần tính chân thực (sẽ chuyển về DALL-E 3 hoặc Stable Diffusion 4 cho các phong cách cụ thể).

2. Chỉnh sửa tại chỗ

Thả bất kỳ hình ảnh nào (được tạo hoặc tải lên) vào phòng và yêu cầu chỉnh sửa bằng ngôn ngữ tự nhiên:

@Designer Make the microphone silver instead of black, everything else stays.

Y Build theo dõi lịch sử chỉnh sửa — mỗi lần lặp lại là một phiên bản mới trong không gian làm việc của bạn, vì vậy bạn có thể hoàn tác (roll back).

3. Tạo hàng loạt tự động

Đối với các trang thương mại điện tử hoặc nội dung cần nhiều hình ảnh, agent Virtuoso có thể chạy GPT Image 2 trên một danh sách các prompt, ghi kết quả vào không gian làm việc của bạn và commit chúng vào repo.

@Virtuoso Generate product hero images for each of the 24 items in products.csv, save as /public/products/{slug}.jpg, and commit.

45 phút sau, bạn có 24 hình ảnh, đã được agent Reviewer kiểm tra tính nhất quán của thương hiệu, được dàn dựng trong một nhánh (branch) để bạn merge.

4. Tích hợp không gian làm việc

Tất cả hình ảnh được tạo đều nằm trong không gian làm việc Y Build của bạn. Đó là các tệp thực — có thể chỉnh sửa trong trình chỉnh sửa khối (block editor), có thể xuất sang repo của bạn và được quản lý phiên bản.

Giá cả trong Y Build

Gói Free: 10 lượt tạo GPT Image 2 Standard/tháng (nếu không sẽ chuyển về DALL-E 3 cho gói miễn phí)
Gói Pro ($69/tháng): Không giới hạn Standard, 200 lượt HD/tháng, 50 lượt Ultra/tháng
Gói Max ($199/tháng): Không giới hạn mọi thứ bao gồm cả Ultra

Không cần mã API OpenAI riêng biệt — chúng tôi đã bao gồm quyền truy cập trong gói. Nếu bạn đã có credit với OpenAI cho các công việc khác, điều đó không xung đột; Y Build có nguồn tài nguyên riêng.

Còn DALL-E 3 và GPT Image 1 thì sao?

Cả hai vẫn có sẵn trong Y Build. Một số trường hợp sử dụng (minh họa cách điệu, phong cách nghệ thuật cụ thể) vẫn ưu tiên chúng. Agent Designer sẽ tự động chọn dựa trên prompt, hoặc bạn có thể chỉ định một mô hình cụ thể:

@Designer Generate with gpt-image-2: [prompt]

@Designer Generate with dalle-3: [prompt]

Stable Diffusion 4 cũng có sẵn như một tùy chọn miễn phí cho gói Pro — tính chân thực thấp hơn một chút so với GPT Image 2 nhưng không tính phí compute cho người dùng Pro.

Cách bắt đầu sử dụng ngay hôm nay

Đăng ký Y Build miễn phí — không cần thẻ tín dụng
Bắt đầu bất kỳ phòng nào với agent Conductor của bạn
Yêu cầu agent Designer tạo một hình ảnh — GPT Image 2 là mặc định

Nếu bạn đã là người dùng Y Build, chỉ cần nhắc đến @Designer trong bất kỳ phòng nào — GPT Image 2 đã sẵn sàng.

FAQ

GPT Image 2 có thực sự tốt hơn Midjourney v7 không?

Về tính chân thực và văn bản trong ảnh, câu trả lời là có. Về nghệ thuật cách điệu (anime, concept art, phong cách hội họa), Midjourney v7 vẫn có lợi thế. Hầu hết các nhà thiết kế mà chúng tôi biết sẽ sử dụng cả hai.

GPT Image 2 có thể tạo nội dung NSFW không?

Không. Các chính sách nội dung của OpenAI vẫn được áp dụng.

Những độ phân giải nào được hỗ trợ?

Standard 1024x1024 (vuông), 1024x1792, 1792x1024. HD lên đến 2048 ở cạnh dài. Ultra lên đến 4096. Các tỷ lệ khung hình không phải hình vuông là bản gốc (native), không phải do upscale.

Y Build có lưu đệm (cache) các hình ảnh được tạo không?

Có. Các prompt giống hệt nhau trong cùng một phòng sẽ trả về hình ảnh được lưu trong bộ nhớ đệm thay vì tạo lại — giúp tiết kiệm hạn ngạch của bạn và tải ngay lập tức.

Việc "tích hợp T+0" hoạt động như thế nào phía Y Build?

Khung agent của Y Build tách biệt lớp mô hình khỏi lớp điều phối (orchestration layer). Khi OpenAI công bố một endpoint mô hình mới, chúng tôi chỉ cần thêm nó vào danh mục mô hình và tinh chỉnh logic định tuyến của agent Designer — thường mất khoảng 2 giờ làm việc. Đối với các bản phát hành lớn như thế này, chúng tôi đã chuẩn bị sẵn trước các chi tiết được bảo mật bởi NDA và triển khai ngay khi API công khai mở cửa.

Tôi có thể tinh chỉnh (fine-tune) GPT Image 2 theo thương hiệu của mình không?

Tính năng tinh chỉnh của OpenAI cho các mô hình hình ảnh vẫn chưa khả dụng (tính đến tháng 4 năm 2026). Để có đầu ra nhất quán với thương hiệu, agent Designer của Y Build duy trì các hướng dẫn phong cách theo từng dự án và được đính kèm vào mọi prompt — mang lại hiệu quả tương tự mà không cần đào tạo.

Điều gì tiếp theo cho các mô hình hình ảnh vào năm 2026?

Stable Diffusion 4 sẽ ra mắt vào tháng 5; Midjourney v8 được đồn đoán vào mùa hè; Adobe dự kiến sẽ công bố một mô hình hoàn toàn an toàn về mặt thương mại tại Max vào tháng 10. Chúng tôi sẽ tích hợp từng mô hình vào ngày chúng ra mắt.