Hình ảnh 2.0 lên ngôi khắc gạo, hình ảnh tiến vào GPT-5 era

OpenAI quen thuộc đã trở lại! Sáng sớm, Ultraman đích thân dẫn đầu đội ngũ, bắt đầu 20 phút phát sóng trực tiếp trực tuyến, phá vỡ mấy ngày im lặng. OpenAI cuối cùng đã ra mắt ChatGPT Images 2.0 được đồn đại, chính thức mở ra một kỷ nguyên mới về tạo hình ảnh.

Hình ảnh 2.0 là một bước nhảy vọt về chất. Nó đã đạt được những bước đột phá lớn trong việc hiểu chính xác các hướng dẫn dài, đặt và làm rõ chính xác mối quan hệ giữa các đối tượng cũng như hiển thị văn bản dày đặc.

Điều quan trọng nhất là đây là mô hình hình ảnh đầu tiên có "khả năng tư duy", có thể tìm kiếm thông tin theo thời gian thực và thực hiện tự kiểm tra thứ cấp trên Internet.

Nó cũng có thể tạo ra tám hình ảnh với các phong cách mạch lạc cùng một lúc, hỗ trợ độ phân giải cực rõ lên tới 2K.

Hãy nói theo cách này, Hình ảnh Sự ra đời của 2.0 đã xác định lại sự thống trị của thế hệ hình ảnh -

Độ chính xác ở cấp độ pixel: văn bản phông chữ nhỏ, biểu tượng, thành phần giao diện người dùng và các chi tiết phức tạp khác có thể được tạo bằng một cú nhấp chuột, hỗ trợ đầu ra kích thước đầy đủ từ 3:1 đến 1:3;

Thay đổi chất lượng đa ngôn ngữ: Tiếng Trung, tiếng Nhật, tiếng Hàn và các văn bản không phải tiếng Latinh khác được hiển thị chính xác, không chỉ các ký tự Viết đúng chính tả, câu văn mượt mà và mạch lạc;

Phong cách trưởng thành: chân thực như ảnh và có thể nắm bắt được ngôn ngữ hình ảnh như ảnh tĩnh trong phim, nghệ thuật pixel và truyện tranh;

Suy nghĩ: mô hình hình ảnh đầu tiên có khả năng suy luận, có khả năng tìm kiếm trực tuyến, tự kiểm tra đầu ra và kiến thức được cập nhật đến tháng 12 năm 2025.

Trong danh sách mới nhất của Arena, Hình ảnh 2.0 đã chinh phục thế giới và leo lên ngôi vị dẫn đầu về bản đồ AI toàn cầu. Sức mạnh đánh bại phiên bản GoogleNano Banana 2/Pro, dẫn đầu với 242 điểm.

Nó đứng đầu trong tất cả 7 hạng mục ảnh Vincentian.

T AGPH117

TAG PH106

Điều tàn nhẫn nhất là nó có thể đạt được mức pixel thế hệ.

Trong bức ảnh núi lúa được tạo ra trong buổi phát sóng trực tiếp, một trong những hạt gạo thực sự được khắc phông chữ "Hình ảnh GPT 2".

Ultraman còn trình chiếu thêm nhiều phim hoạt hình GPU với Gabriel Goh, người đứng đầu đồ họa 4o.

TA GPH135

Cư dân mạng đã tận dụng hết lần này đến lần khác và được chụp ảnh bởi Hình ảnh Sức mạnh của 2.0 một lần nữa thật đáng kinh ngạc.

Thậm chí có người còn cho rằng: "OpenAI cuối cùng lại dẫn đầu lĩnh vực tạo hình ảnh"!

TAGP H10

Thần trực tiếp Trung Quốc

8Trò đùa của riêng OpenAI là "bắt bạn đều đặn"

Trước đây, mô hình hình ảnh hoạt động tốt ở các ngôn ngữ bảng chữ cái tiếng Anh và tiếng Latin, nhưng nó bắt đầu "vẽ ký tự" ngay khi gặp ký tự Trung Quốc, Nhật Bản và Hàn Quốc.

Lần này, bản demo tiếng Trung được phát hành trên blog chính thức đã lan truyền mạnh mẽ.

Nhà khoa học nghiên cứu OpenAI Chen Boyuan đã đích thân xuất hiện (do chính anh ấy viết ngay) và tạo ra một trang truyện tranh màu Trung Quốc đầy đủ, kể câu chuyện về việc anh ấy tối ưu hóa kết xuất văn bản tiếng Trung trong ChatGPT Image 2 tại OpenAI.

Hình ảnh này chứng minh cùng lúc ba điều, sự thay đổi về chất trong khả năng kết xuất văn bản tiếng Trung, khả năng kiểm soát độ chính xác của cỡ chữ cực nhỏ và khả năng tạo truyện tranh nhiều bảng phức tạp cùng một lúc

Truyện tranh được chia thành năm hàng. Hàng đầu tiên cho thấy Chen Boyuan đang đắm chìm trong công việc trước máy tính. Phía sau là trà sữa trân châu, và một quả chuối được dán vào tường bằng một đoạn băng dính (để tưởng nhớ cảnh nổi tiếng trong giới nghệ thuật).

Hàng thứ hai là một tấm áp phích đồ họa thông tin vẽ tay đa ngôn ngữ mà anh đã tạo cho quê hương Vô Tích của mình. Các ký tự nhỏ tiếng Trung dày đặc trên đó đều được hiển thị chính xác.

Hàng thứ 3 là cảnh cả đội hưng phấn tập thể sau khi nhìn thấy hiệu ứng.

Cảnh ở hàng thứ tư đã thay đổi. Chen Boyuan đang nghỉ ngơi với chiếc điện thoại di động của mình và nhận được tin nhắn văn bản được dịch từ Ultraman, chúc mừng nhóm về kết quả kết xuất tiếng Trung của họ.

Sau đó, sự kiện chính sẽ đến.

Ở hàng thứ năm, Chen Boyuan nhìn thấy bức ảnh chúc mừng do Ultraman tạo ra, ở giữa có viết dòng chữ "Bắt bạn đều đặn".

Hiểu rõ mọi thứ.

GPT Trong các cuộc trò chuyện của người Trung Quốc, anh ấy thường nói "Tôi sẽ bắt kịp bạn" và "cảm xúc của bạn rất hợp lý", có mùi béo ngậy và chân thành của tư vấn tâm lý Mỹ và bị người dùng Trung Quốc chỉ trích. Trong hơn nửa năm,

Chen Boyuan trong truyện tranh đã đột phá hàng phòng ngự ngay tại chỗ, giận dữ hét lên theo phong cách truyện tranh: "Trời ơi! Nó lại học được cách bắt rồi!", Các đồng đội bên cạnh đổ mồ hôi lạnh, yếu ớt nói: "Chúng tôi đang nỗ lực khắc phục!"

Làn sóng tự ti này có thể được cho điểm tối đa. (Đầu chó thủ công)

Ngoại trừ tiếng Trung, OpenAI cũng phát hành truyện tranh phiêu lưu dành cho lứa tuổi thanh thiếu niên với toàn bộ lời thoại bằng tiếng Nhật, một hiệu sách Ấn Độ có bìa sách bằng 9 thứ tiếng bao gồm tiếng Hindi, tiếng Bengali và tiếng Telugu và một quảng cáo chỗ ở Hanok cao cấp bằng tiếng Hàn.

Ngôn ngữ không còn là “công dân hạng hai” trong việc tạo hình ảnh.

Cấp pixel thế hệ

TA GPH91GPT-3 lên GPT-5 bước nhảy vọt lớn

ChatGPT Images 2.0 có thể được gọi là bản phát hành quan trọng tiếp theo trong thế hệ hình ảnh của OpenAI.

Trong buổi phát sóng trực tiếp, Ultraman đã gọi nó là "Cảm giác giống như một bước nhảy trực tiếp từ GPT-3 lên GPT-5 cùng một lúc."

Tải ảnh của 4 người lên, ChatGPT sẽ trực tiếp hiển thị bìa tạp chí. Thiết kế trang và bố cục văn bản rất đặc biệt.

Hơn nữa, poster chứa nhiều chi tiết, cách xử lý các ký tự nhỏ và sự nhất quán trên khuôn mặt của các nhân vật, mang đến cho người nhìn cảm giác về một "nhóm nhạc nam".

Về chi tiết, đầu ra ChatGPT hoàn toàn đạt được hiệu ứng "chụp ảnh", chân thực đến mức không ai có thể nhận ra đó là do AI tạo ra.

Ví dụ: trong hình bên dưới, chúng ta quay trở lại năm 2015, năm mà OpenAI lần đầu tiên được thành lập. Môi trường ánh sáng và bản sao PPT của giảng đường thật gây sốc.

Điều thực sự gây sốc cho khán giả là góc nhìn toàn cảnh 360° về cảnh con người hạ cánh trên mặt trăng.

Đặt hình ảnh do ChatGPT tạo vào trình xem toàn cảnh và bạn có thể đạt được hiệu ứng sau. Vị trí của mặt trời, hướng của bóng và một số chi tiết đều có thể nhìn thấy rõ ràng.

Trong bản demo chính thức, có ảnh chụp màn hình cửa sổ ChatGPT trong trình duyệt macOS.

Với các cửa sổ chồng lên nhau, các thiết bị đầu cuối mở ở chế độ nền và màn hình nền lộn xộn, có rất nhiều chi tiết hình ảnh đến mức các hiệu ứng được tạo ra gần như giống hệt như ảnh chụp màn hình thực.

Độ chính xác kết xuất đã đạt đến mức này, cho thấy khả năng kiểm soát của mô hình đối với mọi pixel trong hình ảnh đã vượt qua điểm tới hạn.

Photorealistic

Những bức ảnh do AI tạo ra cuối cùng trông không giống AI

Sự trung thực về phong cách là một bước tiến lớn khác.

Trước đây, những bức ảnh do AI tạo ra luôn có "cảm giác AI" khó tả. Da quá mịn, ánh sáng quá đều và bố cục quá hoàn hảo. Nhìn thoáng qua có thể thấy rõ rằng chúng không phải do người thật chụp.

Hình ảnh 2.0 lại đi theo hướng ngược lại và bắt đầu học cách trở nên "không hoàn hảo".

Có một bộ ảnh chụp nhanh trong Bản demo chính thức. Chúng có kết cấu của phim 35mm, có độ hạt rõ ràng. Bố cục hơi lệch tâm, quần áo và tóc tung bay trong gió.

Nếu tôi không nói với bạn rằng nó được tạo ra bởi AI, bạn sẽ nghĩ đó là kết quả của việc một nhiếp ảnh gia vô tình nhấn nút chụp ở bên đường.

Ngoài ra còn có bộ ảnh kiểu máy ảnh dùng một lần, mô phỏng khung cảnh phòng máy tính của một trường trung học Mỹ đầu những năm 2000, với học sinh chen chúc trước màn hình CRT màu be sử dụng ChatGPT.

Đèn flash quá sáng, chuyển động mờ nhẹ và tem ngày màu cam có in "02 18 04" ở góc, mọi "điểm không hoàn hảo của thời đại điện ảnh" đều được tái hiện chính xác.

Về sự đa dạng về kiểu dáng, Hình ảnh 2.0 cũng mở rộng khoảng cách.

Tỷ lệ khung hình hiện hỗ trợ lên tới 3:1 và lên tới 1:3. Với mục đích này, OpenAI đã đặc biệt đăng một phiên bản ngang của một bức tranh phong cảnh cuộn dài truyền thống của Trung Quốc, với vết mực và khoảng trắng.

Áp phích phim Làn sóng mới của Pháp những năm 1960, dấu trang theo phong cách Art Deco, hình ảnh bộ nhân vật hoạt hình, mỗi ngôn ngữ hình ảnh đều duy trì tính nhất quán về phong cách ở mức độ cao chứ không chỉ "trông hơi giống".

Mô hình hình ảnh tư duy

Tạo tám ảnh liên tiếp cùng một lúc

Trong buổi phát sóng trực tiếp, quản lý hình ảnh ChatGPT Gabriel Goh cho biết Images 2.0 đã ra mắt tổng cộng hai chế độ -

Chế độ tức thì (Chế độ tức thì)

Chế độ chế độ tư duy)

Những nâng cấp mang tính lật đổ nhất đều được ẩn trong "Chế độ tư duy".

Khi chọn mô hình tư duy trong ChatGPT, Images 2.0 không còn chỉ là trình kết xuất "bạn nói và tôi vẽ" mà trở thành đối tác tư duy trực quan.

Nó sẽ dành nhiều thời gian hơn để tìm hiểu ý định của bạn, tìm kiếm thông tin thời gian thực trên mạng, suy luận về cấu trúc hình ảnh và sau đó đặt bút viết.

Quan trọng hơn, ở chế độ tư duy, nó có thể tạo ra tối đa tám hình ảnh cùng một lúc với phong cách mạch lạc, vai trò nhất quán và nội dung tiến bộ.

Chỉ cần tải ảnh lên, ChatGPT sẽ ngay lập tức cung cấp cho bạn 8 bộ trang phục mùa hè. Chọn một trong các bộ và nhiều chi tiết khác về quần áo từ các góc độ khác nhau sẽ được tạo cho bạn.

T AGPH13

Trong nhiệm vụ này, Ch. atGPT sử dụng hai "trí thông minh thị giác" khác nhau:

Đầu tiên là khả năng "hiểu thị giác", đòi hỏi phải "nhìn" ảnh thực sự. Hiểu được ngoại hình của một người và sau đó lên kế hoạch cho một bộ trang phục phù hợp.

Một khía cạnh khác là khả năng “tạo hình ảnh”. Nó đòi hỏi phải chuyển đổi cách bố trí quần áo theo kế hoạch thành một bức tranh mạch lạc và có tổ chức.

Trước đây, nếu muốn tạo một bộ tài liệu truyền thông xã hội, bạn phải tạo từng tài liệu một và tự ghép chúng lại với nhau. Giờ đây, chỉ với một lời nhắc, bốn kích thước Twitter, Instagram Stories, Instagram Feed và LinkedIn có sẵn cùng một lúc với tông màu và phong cách bố cục thống nhất.

Bản demo chính thức hiển thị tài liệu quảng cáo của một cửa hàng matcha ở Brooklyn "kizuki", hình ảnh matcha dâu tây đá dưới ánh nắng, thẩm mỹ thời trang dạo phố với chủ nghĩa tối giản Nhật Bản và bốn kích cỡ nền tảng xã hội trong một bước.

Ngoài ra còn có bản demo của một áp phích bài báo học thuật. Bạn có thể tải tệp PDF trực tiếp lên và mô hình sẽ tự động trích xuất các biểu đồ, dữ liệu và cấu trúc chính, đồng thời bố trí nó thành một áp phích ngang.

Điều đáng nói là sau khi bật chế độ tư duy trong Hình ảnh 2.0, bạn cũng có thể trực tiếp tìm kiếm thông tin trên mạng. Nhóm

tiết lộ rằng “DuckTape” đã được thử nghiệm mù quáng trong Arena vài ngày trước là Hình ảnh 2.0 của ngày hôm nay.

Sau đó, họ yêu cầu Images 2.0 thu thập phản hồi từ cư dân mạng và biến nó thành một bức tranh. Thật bất ngờ, mô hình này còn tạo ra một "mã QR" có thể quét trực tiếp.

TAGPH 59Trò chuyệnGPT và Codex hoàn toàn mở

Từ hôm nay trở đi, tất cả ChatGPT và Codex đều có thể sử dụng ChatGPT Images 2.0.

Chức năng tạo hình ảnh với quy trình "suy nghĩ" đã được mở cho người dùng ChatGPT Plus, Pro và Business. Mô hình cơ bản gpt-image-2 cũng đã được khởi chạy trong API.

Về mặt giá cả, ChatGPT Images 2.0 mạnh hơn, trong khi giá đầu vào/đầu ra toekn không tăng.

Đối với người dùng thông thường, ảnh thuyết trình, áp phích mạng xã hội và thẻ quảng cáo sản phẩm vốn thường mất nửa ngày để mở trong Photoshop giờ đây có thể được thực hiện chỉ bằng một lời nhắc.

Đối với các nhà phát triển và doanh nghiệp, quảng cáo được bản địa hóa, đồ họa thông tin đa ngôn ngữ, nội dung giáo dục và các công cụ thiết kế yêu cầu nhiều quy trình làm việc trực quan thủ công giờ đây có thể được tự động hóa hàng loạt thông qua API.

Codex thậm chí còn tích hợp tính năng tạo hình ảnh vào không gian làm việc. Nhóm thiết kế có thể tạo các kế hoạch giao diện người dùng, so sánh các tùy chọn và chuyển đổi sản phẩm trong cùng một môi trường mà không cần chuyển đổi công cụ.

Khoảnh khắc iPhone được tạo bằng hình ảnh?

Nhìn lại, từ DALL·E đến Midjourney đến Stable Diffusion, việc tạo ảnh AI luôn ở trạng thái “đủ nhưng chưa tốt lắm”.

Kết xuất văn bản bị đảo ngược, đa ngôn ngữ được kéo dài, phong cách giống nhau và bố cục là AI trong nháy mắt. Mỗi điểm yếu này đã làm nản lòng những người muốn sử dụng hình ảnh AI trong những cảnh quay nghiêm túc.

Hình ảnh 2.0 sẽ bù đắp tất cả những thiếu sót này ngay lập tức, đồng thời bổ sung thêm khả năng tư duy và khả năng tạo ra nhiều hình ảnh cùng một lúc.

Mặc dù vẫn chưa “hoàn hảo” nhưng đây có thể là mô hình hình ảnh AI đầu tiên khiến các nhà thiết kế, nhà tiếp thị và người sáng tạo nội dung phải suy nghĩ: “Tôi thực sự có thể sử dụng mô hình này tại nơi làm việc”.

Bây giờ, các nhà thiết kế có thể phải suy nghĩ lại xem hào của họ ở đâu.

Tham khảo:

https://x.com/OpenAI/status/20466617 95327459677

https://x.com/OpenAI/status/204667097714537277 1

https://openai.com/index/introducing-chatgpt-images-2-0/

https://x.com/sama/status/2046672912833458597