Chỉ trong hai năm, cách chúng ta phân biệt giữa hình ảnh do con người tạo ra và hình ảnh do AI tạo ra đang nhanh chóng trở nên lỗi thời. Trước đây, các mô hình tạo hình ảnh có xu hướng bị "lật ngược" khi được yêu cầu tạo hình ảnh có các thành phần nặng văn bản như menu. Ví dụ: khi một mô hình ban đầu tạo ra thực đơn nhà hàng Mexico, nó sẽ "phát minh" các tên món ăn phổ biến thành các lỗi chính tả như "enchuita", "churiros", "burrto" và "margartas", những tên này thoạt nhìn không đáng tin cậy.

Bây giờ, khi sử dụng ChatGPT Images 2.0 mới để tạo menu Mexico, kết quả do mô hình đưa ra là đủ để sử dụng trực tiếp trong cửa hàng và khách hàng thông thường khó có thể nhìn thấy sai sót trong chính văn bản. Điều duy nhất có thể khiến người ta nghi ngờ là mức giá “ceviche (ceviche) với giá 13,50 USD”, điều này sẽ khiến người ta có chút đắn đo về chất lượng của cá. Để so sánh, tác giả cũng trích dẫn một ví dụ về menu được tạo bằng DALL·E 3 cách đây hai năm (tại thời điểm đó, ChatGPT chưa có khả năng tạo hình ảnh tích hợp). Sự thiếu ổn định trong cách trình bày văn bản trong mô hình cũ trái ngược hoàn toàn với mô hình mới.

Trình tạo hình ảnh AI từ lâu đã hoạt động kém về chính tả và nguyên nhân cốt lõi là liên quan đến lộ trình kỹ thuật chính thống. Các mô hình hình ảnh trước đây chủ yếu sử dụng các mô hình khuếch tán để hoàn thành nhiệm vụ tạo bằng cách "tái tạo" dần hình ảnh trong nhiễu. Người sáng lập và Giám đốc điều hành Lesan AI Asmelash Teka Hadgu cho biết trong một cuộc phỏng vấn với TechCrunch vào năm 2024 rằng mô hình khuếch tán về cơ bản là khôi phục một hình ảnh tổng thể và văn bản trên hình ảnh thường chỉ chiếm một vùng pixel rất nhỏ, vì vậy mô hình này ưu tiên học các mẫu hình ảnh bao phủ một khu vực lớn hơn thay vì các hình dạng văn bản đẹp. Trong bối cảnh đó, các nhà nghiên cứu đã bắt đầu khám phá các cơ chế mới như mô hình tự hồi quy để tạo ra hình ảnh giống mô hình ngôn ngữ lớn hơn, xây dựng hình ảnh bằng cách dự đoán và hiểu dần các cấu trúc.

Về kiến ​​trúc cơ bản được sử dụng bởi ChatGPT Images 2.0, OpenAI đã từ chối trả lời trực tiếp các câu hỏi liên quan tại cuộc họp báo truyền thông tuần này. Tuy nhiên, OpenAI nhấn mạnh trong phần giới thiệu rằng mô hình mới có cái gọi là “khả năng tư duy” và có thể truy xuất thông tin trực tuyến, tạo ra nhiều hình ảnh từ một lời nhắc duy nhất và xem lại kết quả đầu ra của chính nó. Điều này có nghĩa là Hình ảnh 2.0 không chỉ là một "đầu ra hình ảnh" duy nhất mà còn có thể tạo ra nhiều tài liệu xung quanh cùng một ý tưởng sáng tạo, chẳng hạn như tài liệu tiếp thị có kích thước khác nhau, đồ họa quảng cáo được điều chỉnh cho phù hợp với nhiều nền tảng và thậm chí cả một bộ bảng phân cảnh truyện tranh nhiều khung.

OpenAI cũng tuyên bố rằng mô hình mới đã đạt được tiến bộ đáng kể trong việc hiển thị văn bản không phải tiếng Latinh, bao gồm khả năng hiển thị văn bản nâng cao bằng các ngôn ngữ như tiếng Nhật, tiếng Hàn, tiếng Hindi và tiếng Bengali. Thời hạn cung cấp kiến ​​thức của mô hình là tháng 12 năm 2025, điều này cũng có nghĩa là khi có lời nhắc về tin tức gần đây hoặc các sự kiện mới nhất, nội dung mà mô hình tạo ra có thể có những hạn chế về tính kịp thời. Trong thông cáo báo chí chính thức, OpenAI mô tả Images 2.0 là một cải tiến chưa từng có về "chi tiết và chân thực", nhấn mạnh rằng nó có thể hình dung và triển khai các hình ảnh phức tạp hơn, làm theo hướng dẫn chính xác và giữ lại các chi tiết mà người dùng yêu cầu. Đặc biệt ở những khu vực mà các mẫu hình ảnh trước đây dễ bị "sụp đổ" nhất - văn bản nhỏ, biểu tượng, thành phần giao diện người dùng, bố cục dày đặc và các ràng buộc về kiểu dáng tinh tế, Hình ảnh 2.0 có thể xuất ra ổn định ở độ phân giải cao nhất là 2K.

Khả năng tăng lên này cũng đi kèm với sự đánh đổi tốc độ. Sẽ mất nhiều thời gian hơn để tạo ra một tài liệu truyện tranh phức tạp, nhiều câu chuyện hoặc nhiều kích cỡ hơn là nhập câu hỏi trực tiếp vào ChatGPT để nhận được câu trả lời bằng văn bản. Tuy nhiên, đánh giá từ hiệu suất sản phẩm hiện tại, thường chỉ mất vài phút để hoàn thành các tác vụ hình ảnh phức tạp như vậy, có thể đáp ứng hầu hết các tình huống ứng dụng thực tế.

Về quyền truy cập, OpenAI cho biết tất cả người dùng ChatGPT và Codex sẽ dần dần có quyền truy cập vào Hình ảnh 2.0 bắt đầu từ thứ Ba. Người dùng trả tiền ở các cấp độ khác nhau có thể mở khóa nhiều kết quả "nâng cao" hơn về chất lượng tạo và độ phức tạp đầu ra, chẳng hạn như độ phân giải cao hơn, bố cục phức tạp hơn hoặc nhiều phiên bản đầu ra hình ảnh hơn. Đồng thời, OpenAI cũng sẽ mở các API có liên quan cho các nhà phát triển thông qua gpt-image-2, với mức giá dựa trên chất lượng và độ phân giải của hình ảnh được tạo ra, để các ứng dụng của bên thứ ba có thể tích hợp khả năng tạo hình ảnh này vào các sản phẩm của riêng họ.

ChatGPT Images 2.0 phản ánh một bước tiến lớn về khả năng hiểu văn bản và sắp chữ của mô hình tạo hình ảnh, biến vùng văn bản từng được coi là "điểm yếu" thành liên kết thiết kế có thể được giao cho AI xử lý một cách an toàn. Khi OpenAI ra mắt giao diện thương mại và mở hoàn toàn, thế hệ mô hình đồ thị Vincentian này dự kiến ​​sẽ nhanh chóng bước vào quy trình sản xuất thiết kế tiếp thị, giao diện người dùng sản phẩm, tạo trò chơi và truyện tranh cũng như các ngành công nghiệp khác, làm mờ thêm ranh giới giữa nội dung hình ảnh của con người và AI.