Ultraman "Red Alert" 5 tháng sau GPT Image 2 tàn sát danh sách, dẫn lỗi phản đòn Google

Vào ngày

được phát hành, cả ba danh sách đều bị hủy. Trong vòng 12 giờ kể từ khi GPT Image 2 trực tuyến, ba danh sách phụ là Chuyển văn bản thành hình ảnh, Chỉnh sửa một hình ảnh và Chỉnh sửa nhiều hình ảnh đều đứng đầu danh sách. Lời chính thức của Arena: "một cuộc quét sạch".

Danh sách chính của Ảnh Wensheng, Hình ảnh GPT 2 1512 điểm, Nano Banana 2 1271 điểm. Khoảng cách 241 điểm là lớn nhất trong lịch sử Arena.

“Chưa có người mẫu nào từng thống trị Image Arena với sự chênh lệch này,” các quan chức của Arena cho biết.

Trong tất cả các trận đấu thử nghiệm mù trong Image Arena, tỷ lệ chiến thắng của GPT Image 2 là 93%: 100 bức ảnh được ghép nối trong một thử nghiệm mù và 93 người đã chọn bức ảnh OpenAI.

“Nếu bạn coi DALL-E như những bức tranh hang động và Hình ảnh 1.0 là nghệ thuật cổ xưa thì Hình ảnh 2.0 chính là thời kỳ Phục hưng.”

OpenAI đã giới thiệu Images 2.0 tại lễ khai mạc hội nghị và Ultraman thậm chí còn gọi đây là bản nâng cấp đa thế hệ:

Điều này dường như đã đột ngột chuyển từ GPT-3 lên GPT-5.

https://www.y outube.com/watch?v=sWkGomJ3TLI

Tài liệu API chính thức của OpenAI cho Hình ảnh 2.0 cung cấp đánh giá siêu hạng.

https://developer s.openai.com/api/docs/models/gpt-image-2

Nhưng câu chuyện thực sự không có trong dữ liệu.

đã bị chặn bởi Googletrong nửa năm

4
OpenAI cuối cùng đã trở lại
Thời gian quay trở lại tháng 8 năm 2025.
Google phát hành Nano Banana. Mô hình tạo hình ảnh được nhúng trong Gemini này ngay lập tức bùng nổ ở phía C.
Tại báo cáo tài chính quý 3 ba tháng sau, đích thân Giám đốc điều hành Google Sundar Pichai đã tiết lộ một bộ số liệu: Số người dùng hoạt động hàng tháng của Gemini đã tăng từ 450 triệu trong tháng 7 lên 650 triệu trong tháng 10.
Josh Woodward, người đứng đầu Google Labs, cho biết sự tăng trưởng này phần lớn đến từ sự bùng nổ thế hệ hình ảnh do Nano Banana thúc đẩy.
Vào tháng 11, Google lại phát hành Nano Banana Pro. Khả năng kết xuất văn bản thật đáng kinh ngạc, hình ảnh AI lần đầu tiên có thể viết từ chính xác và OpenAI bị vượt mặt về phía C.
Vào ngày 18 tháng 11, Google đã thực hiện một động thái khác. Gemini 3 đã lọt vào top LM Arena ngay sau khi ra mắt với 1501 điểm, trở thành model tiên tiến đầu tiên phá vỡ 1500 điểm.
Vào cuối tháng này, Ultraman đã ban hành một bản ghi nhớ nội bộ về "mã đỏ" cho toàn bộ công ty.
Theo The Information, Altman đã nói riêng với nhân viên rằng Gemini 3 có thể mang lại những trở ngại kinh tế cho OpenAI. Yahoo Finance sau đó tiết lộ: Theo mã đỏ, OpenAI đã đình chỉ việc nghiên cứu và phát triển các sản phẩm khác như AI Agent và tất cả tài nguyên được phân bổ cho ChatGPT.
Vào tháng 12, OpenAI đã tung ra GPT Image 1.5. Arena xếp thứ nhất nhưng bên C không nổ được.
Tháng 2 năm 2026, Google lại có động thái khác, Nano Banana 2 xuất hiện và Arena lại dẫn đầu.
OpenAI lại bị mất.
Phải đến ngày 21 tháng 4, khi GPT Image 2 ra mắt, OpenAI mới giành được vị trí dẫn đầu và giành lại vị trí dẫn đầu.
Vẽ tranh AI sẽ được xác định lại
GPT Hình ảnh 2 Tại sao nó có thể dẫn trước 241 điểm?
Câu trả lời cốt lõi được ẩn ở cấp độ kiến trúc.
GPT Hình ảnh 2 không phải là mô hình khuếch tán của thế hệ Khuếch tán ổn định.
Boyuan Chen, người đứng đầu nghiên cứu OpenAI, gọi đây là "mô hình tổng quát" được "tân trang lại từ đầu" (được xây dựng lại từ đầu). Tên nội bộ của OpenAI là "phiên bản hình ảnh của GPT".
Tuy nhiên, Chen từ chối công khai thừa nhận liệu đó là kiến trúc khuếch tán hay kiến trúc tự thoái trào trong cuộc họp báo.
Thế giới bên ngoài thường hiểu nó là một “hệ thống tạo hình ảnh với kế hoạch suy luận”: lập kế hoạch trước khi vẽ và sau đó viết. Đây là điểm khác biệt lớn nhất giữa GPT Image 2 và mẫu hình ảnh thế hệ trước.
OpenAI đã đặt cho nó một nhãn mới trong phần mô tả chính thức: mô hình hình ảnh đầu tiên có khả năng tư duy bẩm sinh.
Hãy suy nghĩ trước khi vẽ, tự kiểm tra sau khi vẽ, tìm kiếm thông tin trực tuyến khi cần thiết và tạo ra 8 bức tranh mạch lạc cùng một lúc.
Đây không phải là cọ vẽ, nó là một trợ lý trực quan tư duy.
Dữ liệu phân tích danh sách đấu trường hiển thị:
Một mục Kết xuất văn bản (Kết xuất văn bản), GPT Image 2 tăng 316 điểm so với thế hệ trước; hoạt hình và chân dung đều tăng 296 điểm; 3 danh mục sản phẩm/3D/thực tế, phạm vi tổng thể nằm trong khoảng từ +247 đến +277.
Hiển thị văn bản là vấn đề được Nano Banana Pro giải quyết lần đầu tiên vào tháng 11 năm 2025, nhưng độ chính xác vào thời điểm đó là 94%. GPT Image 2 đã đẩy nó lên 99%.

Trình diễn trực tiếp hội nghị OpenAI: để GPT Image 2 vẽ một bát cơm, trên đó chỉ có một hạt gạo có ghi tên model.
Về phần trình diễn năng lực, Chủ tịch OpenAI Greg Brockman đã trình diễn trên tài khoản X của mình.
Trường hợp đầu tiên là khôi phục ảnh cũ.

Một bức ảnh gia đình cũ bị mờ và ố vàng có thể được chuyển ngay lập tức thành phiên bản màu có độ phân giải cao chỉ bằng một lời nhắc.
Cụm từ "đầu vào hình ảnh có độ trung thực cao" trong tài liệu API chính thức của OpenAI đề cập đến khả năng giữ lại các chi tiết của hình ảnh gốc của mô hình: đầu vào có thể đọc chính xác các chi tiết của ảnh cũ bị mờ, hư hỏng và mờ và đầu ra có thể hiển thị lại một phiên bản rõ ràng.
Trong trường hợp thứ hai, Brockman đã chuyển tiếp một bộ ảnh thử nghiệm từ người dùng @doodlestein: sử dụng cùng một từ nhắc phức tạp để yêu cầu GPT Image 2 vẽ sơ đồ giải thích toán học.
Anh ấy nhận xét rằng ngay cả với những từ gợi ý phức tạp, GPT Image 2 có thể tạo ra hình ảnh với nhiều phong cách khác nhau.

@doodlestein Kiểm tra GPT Hình ảnh 2 Vẽ đại số tuyến tính sơ đồ giải thích bằng cách sử dụng cùng một từ gợi ý. Mô hình vẽ ra 4 phiên bản hoàn toàn khác nhau trong một lần: cùng dạy về Mona Lisa + vectơ riêng và bố cục, phối màu và mật độ thông tin của mỗi phiên bản là hoàn toàn khác nhau.
Giá trị thực sự của trường hợp này không phải là "khả năng vẽ đồ thị toán học", mà nó giải quyết được một điểm yếu quan trọng của việc tạo đồ thị AI trong hai năm qua: đầu ra duy nhất và khả năng kiểm soát các biến thể kém.
GPT Hình ảnh 2 lần đầu tiên biến "một lời nhắc cho tôi 4 hướng hoàn toàn khác nhau" thành khả năng ở cấp độ sản phẩm.
Một người thử nghiệm LM Arena cao cấp trong ngành đã nhận xét:
Khoảng cách giữa GPT Image 2 và Nano Banana Pro cũng lớn như khoảng cách giữa Nano Banana Pro và DALL-E.
kéo dài cả một thế hệ.

GPT Hình ảnh 2 Trang truyện tranh phong cách manga được tạo bằng chế độ Suy nghĩ: Bắt đầu từ một từ gợi ý đơn giản, mô hình duy trì tính nhất quán của nhân vật và đưa ra các cốt truyện nhiều khung.
DALL-E Đã nghỉ hưu
Adobe Canva đã bị dồn vào chân tường
Bật Vào ngày phát hành, quá trình tích hợp các công cụ hạ nguồn đã nhanh hơn dự kiến của vòng tròn kỹ thuật.
Figma, Canva, Adobe Firefly, fal và Hermes Agent đều được tích hợp vào ngày 21 tháng 4.
Giá API thậm chí còn nguy hiểm hơn:
Hình ảnh chất lượng cao có giá 0,21 USD mỗi ảnh; ChatGPT Plus có giá 20 USD mỗi tháng và tính năng tạo hình ảnh được bao gồm trong gói.
Đằng sau sự chênh lệch giá này, nó có thể mang lại sự tái cơ cấu công nghiệp lớn nhất trong ngành sản xuất hình ảnh vào năm 2026.

GPT Hình ảnh 2 tạo ra quang học chân thật (chụp thực tế). Bờ biển, bầu trời nhiều mây, ô tô cổ điển, kết cấu phim - loại hiệu ứng hình ảnh này trước đây yêu cầu các nhiếp ảnh gia chuyên nghiệp chụp ảnh ngoài trời và hậu kỳ giờ đây có thể đạt được với API 0,21 USD. Nhà nghiên cứu OpenAI Gabriel Goh cho biết hiện tượng quang học là khả năng khiến ông phấn khích nhất về mô hình.
Ngày 12 tháng 5, DALL-E 2 và DALL-E 3 đã chính thức ngừng hoạt động.
Họ là những người sáng lập ra toàn bộ cuộc cách mạng hình ảnh AIGC vào năm 2022. Ba năm sau, nó đã được chính người kế nhiệm OpenAI truyền lại vào lịch sử.
OpenAI được đề cập trong ghi chú phát hành chính thức:
Hình ảnh không phải là trang trí, chúng là ngôn ngữ. Một bức tranh đẹp cũng có tác dụng tương tự như một câu văn hay: chọn lọc, sắp xếp, bộc lộ.
Điều này thể hiện sự thay đổi trong triết lý sản phẩm.
Tất nhiên cũng có những ý kiến trái chiều. ZDNet phát hiện trong thử nghiệm thực tế rằng GPT Image 2 không thể tái tạo chính xác logo thương hiệu và thậm chí logo của chính ZDNet còn bị méo.
Nano Banana 2 vẫn có lợi thế về độ chân thực của chân dung và tính nhất quán của nhiều tham chiếu.
GPT Hình ảnh 2 Mặc dù chưa hoàn hảo nhưng mẫu bản nhạc đã thay đổi.
Thời đại kết xuất đã qua

Thời đại của lý luận vừa mới bắt đầu đã bắt đầu
Google đưa suy luận vào các mô hình hình ảnh. OpenAI cắm các công cụ hình ảnh vào các mô hình suy luận. Khoảng cách Elo 242 điểm đo lường sự khác biệt về kiến trúc giữa hai điểm.
implicator.ai Đánh giá này phân chia hai thời đại tạo hình ảnh.
2022 đến 2025 là thời đại của kết xuất.
DALL-E, Giữa hành trình, Khuếch tán ổn định, tất cả đều nhằm mục đích "vẽ thích". Mô hình là cọ vẽ, người dùng là họa sĩ và lời nhắc là bản vẽ.
GPT Hình ảnh 2 tượng trưng cho một kỷ nguyên của lý luận.
Người mẫu suy nghĩ trước khi viết. Nó có thể tìm kiếm, tự kiểm tra và hoàn thành nhiệm vụ. Nó không phải là cọ vẽ, nó là một trợ thủ có thể vẽ.
Điều thực sự đáng được chú ý khi phát hành GPT Image 2 là thực tế rằng việc tạo hình ảnh đang hướng tới chính việc "suy nghĩ".
Trước mắt, Black Forest Labs (Flux 2) có thể gặp rắc rối lớn nhất.
Kingy AI tuyên bố thẳng thừng: Với tư cách là nhà sản xuất ưu tiên phổ biến, toàn bộ quy trình kỹ thuật của Flux 2 về mặt kiến trúc xung đột với dòng lý luận "token-by-token".
Hoặc hợp nhất hoặc viết lại, không có cách thứ ba.
Trong trung hạn, Google có thể phản công vào quý tới. Nano Banana 3, hay Imagen-Reason, sẽ không tồn tại lâu.
Về lâu dài, tác động của sự cố này vượt xa việc tạo ra hình ảnh.
Khi AI bắt đầu sử dụng "suy nghĩ" để tạo ra hình ảnh, video, âm thanh và mã, toàn bộ mô hình AI tổng hợp sẽ thay đổi tương ứng.
Khi Ultraman gõ "code red" vào bản ghi nhớ vào tháng 12 năm ngoái, có lẽ anh ấy cũng không ngờ rằng 5 tháng sau mình sẽ trở lại đỉnh cao Arena theo cách này.
Nhưng ý nghĩa thực sự của cuộc phản công này có thể không phải là OpenAI đã đánh bại Google mà là OpenAI đã viết lại các quy tắc của quá trình tạo hình ảnh.

Arena.AI Danh sách chỉnh sửa ảnh đơn (Image Edit Arena): GPT Image 2 (trung bình) Vẫn đứng đầu với hơn 1510 điểm, các vị trí thứ hai, thứ ba, thứ tư và thứ năm đều do mô hình riêng của OpenAI và Google chiếm giữ Chuỗi cung Song Tử. https://arena.ai/leaderboard/image-edit
Khi nào Google sẽ thực hiện cú đột phá tiếp theo? Vấn đề này quyết định hướng đi của bối cảnh AI trong nửa cuối năm 2026.
Trước khi cú đấm đó được tung ra, không ai biết GPT Image 2 sẽ đứng đầu Arena trong bao lâu.
Tham khảo:
https://x.com/gdb/status/204844969 5622586576
https://arena.ai/leaderboard/image-edit