Microsoft gần đây đã chính thức phát hành mô hình tạo hình ảnh tự phát triển thế hệ thứ hai MAI-Image-2, đã vươn lên vị trí thứ ba trong bảng xếp hạng mô hình tạo hình ảnh của nền tảng đánh giá bên thứ ba Arena, chỉ sau Google gemini-3.1-flash-image-preview và gpt-image-1.5-độ trung thực cao của OpenAI. Điều này cũng đánh dấu sự chuyển mình của Microsoft từ một “người bắt bóng” thành một cường quốc ở tuyến đầu trong lĩnh vực AI sáng tạo.
Hiện tại, MAI-Image-2 đã dần được mở cho người dùng Copilot và người tạo hình ảnh Bing. Người dùng cũng có thể là người đầu tiên trải nghiệm nó thông qua MAI Playground. Các nhà phát triển có thể sử dụng API do Microsoft Foundry cung cấp để tích hợp mô hình này vào các ứng dụng và dịch vụ của riêng họ.

Đánh giá Vào tháng 10 năm 2025, Microsoft lần đầu tiên công bố mô hình tạo hình ảnh tự phát triển MAI-Image-1, với hy vọng cạnh tranh với các sản phẩm như gpt-image-1 của OpenAI và Gemini/Imagen của Google trong lĩnh vực này. Microsoft sau đó đã mở rộng MAI-Image-1 sang Bing.com/create và ứng dụng di động Bing, cho phép nhiều người dùng cuối hơn tạo bằng công cụ tạo hình ảnh. Tuy nhiên, trong bảng xếp hạng Image Arena của nền tảng Arena bên thứ ba, MAI-Image-1 chỉ đứng thứ 9 khi ra mắt, đây là một khoảng cách đáng kể so với các mẫu từ các phòng thí nghiệm hàng đầu khác. Vào thời điểm đó, Microsoft nhấn mạnh rằng chiến lược đào tạo của họ tập trung vào việc giảm đầu ra lặp đi lặp lại và quá cách điệu, đồng thời nhấn mạnh lợi thế về tốc độ tạo hình, tuyên bố có hiệu suất phản hồi nhanh hơn trong số các mô hình tạo hình ảnh quy mô lớn tương tự.
MAI-Image-2 được phát hành lần này là bản nâng cấp lớn của nhóm Microsoft AI dựa trên cơ sở trên. Theo giới thiệu chính thức, mẫu máy thế hệ mới có những cải tiến đáng kể về hiệu ứng ánh sáng tự nhiên, khả năng phục hồi màu da và chi tiết môi trường, giúp những người sáng tạo giảm thời gian chỉnh sửa hậu kỳ và hoàn thành các dự án thương mại và sáng tạo hiệu quả hơn. Đồng thời, MAI-Image-2 đã tập trung vào việc tối ưu hóa khả năng kết xuất văn bản của mình, làm cho nó phù hợp hơn với các tình huống như sản xuất đồ họa thông tin, bản trình bày, lưu đồ và sơ đồ kỹ thuật, cải thiện khả năng sử dụng của việc tạo nội dung tích hợp đồ họa và văn bản. Microsoft cũng cho biết mô hình này đã đạt được tiến bộ đáng kể trong việc tạo ra hình ảnh điện ảnh, cực kỳ chi tiết và đặc biệt tốt trong việc xử lý các nhu cầu sáng tạo khó như khái niệm siêu thực, bố cục phức tạp và lộng lẫy cũng như những cảnh hoành tráng.
Ban lãnh đạo Microsoft cũng đang tạo đà cho MAI-Image-2 trên mạng xã hội. Mustafa Suleyman, người đứng đầu bộ phận kinh doanh AI tiêu dùng của Microsoft, cho biết trên nền tảng rằng trình tạo hình ảnh mới MAI-Image-2 đã được ra mắt trên MAI Playground và có thể được sử dụng cho nhiều mục đích khác nhau từ đồ họa thông tin thực tế đến phức tạp. Ông nhấn mạnh đội ngũ Microsoft đã rất nỗ lực cho phiên bản này và hiện tại dòng model này đã lọt vào top 3 trên bảng xếp hạng Arena. Anh ấy khuyến khích người dùng dùng thử và đưa ra các ví dụ về hình ảnh do mô hình tạo ra.
Xét về chiến lược tổng thể, việc ra mắt MAI-Image-2 phản ánh hướng đi “tự cung tự cấp” của Microsoft trong lĩnh vực AI trong những năm gần đây. Trong khi tiếp tục hợp tác sâu rộng với OpenAI, Microsoft đang đẩy nhanh việc tạo ra ma trận mô hình của riêng mình, hoạt động trong nhiều bộ phận nhỏ từ tạo hình ảnh đến phiên âm giọng nói để giảm sự phụ thuộc vào một đối tác bên ngoài. Khi MAI-Image-2 tăng nhanh trên bảng xếp hạng, sự cạnh tranh trực tiếp của Microsoft với Google và OpenAI trên đường đua tạo hình ảnh cao cấp ngày càng trở nên rõ ràng.