Công ty công nghệ Mỹ Microsoft đã thông báo hôm thứ Năm rằng ba mô hình AI được phát triển nội bộ đã chính thức ra mắt để sử dụng rộng rãi cho mục đích thương mại, thể hiện nỗ lực của công ty trong việc thoát khỏi sự phụ thuộc vào đối tác lâu dài OpenAI. Cụ thể, ba mô hình MAI-Transcribe-1, MAI-Voice-1 và MAI-Image-2 do nhóm siêu trí tuệ AI của Microsoft phát triển bao gồm ba khả năng có giá trị thương mại nhất trong AI doanh nghiệp - phiên âm giọng nói, tạo giọng nói và tạo hình ảnh .

(Giám đốc điều hành Microsoft Nadella đã công bố bản cập nhật này, nguồn: Trong các thử nghiệm trên tất cả các ngôn ngữ, tỷ lệ lỗi trung bình của nó là 3,9%. Tỷ lệ lỗi của GPT-Transcribe của OpenAI là 4,2% và của Gemini 3.1 Tốc độ flash là 4,9%.
Mô hình tạo giọng nói MAI-Voice-1 được cho là có thể tạo ra âm thanh 60 giây trong vòng chưa đầy một giây trên một "GPU duy nhất" và duy trì tính nhất quán của giọng nói khi tạo nội dung dài. vào thứ Năm cùng với hai mô hình khác. Mô hình này hiện đứng thứ ba trong bảng xếp hạng biểu đồ Vincentian của "Đấu trường mô hình lớn", chỉ đứng sau Nano Banana 2 phổ biến của Google và GPT-Image 1.5 của OpenAI. mô hình tạo hình ảnh Gemini 3 Pro của Google có giá 120 USD trên 1 triệu từ và hình ảnh Flash Gemini 3.1 có giá 60 USD trên 1 triệu từ
Mục tiêu: Phát triển độc lập mô hình lớn tiên tiến nhất thế giới.
T AGPH72Động thái mới nhất của Microsoft diễn ra vào tháng 10 năm ngoái, khi công ty tổ chức lại quan hệ đối tác với OpenAI để cho phép Microsoft theo đuổi các quyền đối với trí tuệ nhân tạo nói chung hoặc với các đối tác bên thứ ba. Mặc dù thỏa thuận trước đó cho phép Microsoft sử dụng tài sản trí tuệ OpenAI nhưng nó cũng cấm Microsoft phát triển các hệ thống trí tuệ nhân tạo mang tính cạnh tranh.
Giám đốc điều hành Microsoft AI Mustafa Suleiman đã công khai tuyên bố rằng mục tiêu của nhóm vào năm 2027 là “có thể thực sự đạt đến công nghệ tiên tiến nhất”, bao gồm các mô hình có thể phản hồi hoặc tạo văn bản, hình ảnh và âm thanh.
Suleiman cho biết công ty đang xây dựng sức mạnh tính toán cần thiết cho các mô hình đào tạo và bắt đầu triển khai chip Nvidia GB200 vào tháng 10 năm ngoái.
Ông cho biết: "Kể từ thời điểm đó trở đi, chúng tôi sẽ tăng dần tốc độ trong khoảng 12 đến 18 tháng tới để đạt được khả năng tính toán quy mô tiên tiến."
Là người đồng sáng lập Google DeepMind, Suleiman gia nhập Microsoft vào năm 2024 và chịu trách nhiệm tích hợp trí tuệ nhân tạo vào các sản phẩm tiêu dùng của mình. Sau khi Microsoft hoàn tất thỏa thuận với OpenAI vào tháng 10 năm ngoái, Suleiman đã đảm nhận vai trò lãnh đạo toàn thời gian nhóm siêu trí tuệ AI của Microsoft vào tháng 11 năm ngoái. cựu giám đốc điều hành Snap, Jacob Andreou, đã tiếp quản sản phẩm trợ lý Copilot của Microsoft dành cho doanh nghiệp và người dùng cá nhân.
Suleiman nói với giới truyền thông: “Chúng tôi muốn nhấn mạnh tầm quan trọng của sứ mệnh chiến lược là nâng cao khả năng AI tiên tiến nhất của mình và đạt được quyền tự chủ lâu dài trong vòng 3 đến 5 năm tới.” Ông cũng nói thêm rằng công ty cũng sẽ tiếp tục tổ chức các mô hình do các công ty khác phát triển.
Từ góc độ lâu dài, quyền truy cập chuyên sâu của Microsoft vào tài sản trí tuệ của OpenAI sẽ hết hạn vào năm 2032, vì vậy việc phát triển các mô hình lớn tự phát triển cũng là một biện pháp phòng ngừa rủi ro quan trọng
Việc kinh doanh mô hình tự phát triển của Microsoft mới bắt đầu cũng có khá nhiều thiếu sót, điều này đủ để cho thấy điều đó. Nhóm của Suleiman sẽ có rất nhiều việc phải hoàn thành trong năm tới
.Ví dụ: MAI-Image-2 hiện chỉ hỗ trợ tỷ lệ khung hình 1:1 và không cung cấp tùy chọn ngang hoặc dọc. Chỉnh sửa hình ảnh thành hình ảnh và hỗ trợ hình ảnh tham chiếu phổ biến trong các ứng dụng AI khác không tồn tại. MAI-Transcribe-1 không thể phân biệt giữa những người nói khác nhau trong cuộc trò chuyện và không hỗ trợ xu hướng ngữ cảnh và phát trực tuyến, cả ba tính năng mà Microsoft cho biết đều đang được phát triển.