Microsoft gần đây đã phát hành hai mô hình trí tuệ nhân tạo tự phát triển là MAI-Voice-1 và MAI-1-preview, đánh dấu một bước tiến quan trọng của công ty trong lĩnh vực mô hình lớn cơ bản, nhằm giảm dần sự phụ thuộc nhiều vào các mô hình OpenAI. Trong khoảng thời gian qua, Microsoft chủ yếu dựa vào OpenAI cho khả năng AI của mình. Bất cứ khi nào Microsoft ra mắt các mẫu mới nhất của mình, Microsoft sẽ đồng thời thông báo rằng các mẫu này sẽ "có sẵn vào ngày đầu tiên" trong Azure cũng như các sản phẩm và dịch vụ khác nhau của nó. Sự ra mắt của MAI-Voice-1 và MAI-1-preview lần này là một động thái quan trọng của Microsoft nhằm củng cố lãnh thổ AI của mình bằng các mô hình tự xây dựng.

MAI-Voice-1 là mô hình cho các kịch bản tạo giọng nói. Nó đã được tích hợp vào các sản phẩm như Copilot Daily và Podcasts, và mở cửa cho công chúng trải nghiệm. Để chứng minh khả năng hoàn chỉnh của mô hình giọng nói này, Microsoft đã ra mắt trang trải nghiệm tương tác Copilot Labs mới mà người dùng có thể thử trực tiếp thông qua trình duyệt. Trong trải nghiệm Biểu thức âm thanh Copilot, người dùng có thể chỉ cần dán nội dung văn bản, chọn âm thanh, kiểu và chế độ khác nhau để tạo ra âm thanh có độ trung thực cao, biểu cảm và tải xuống kết quả theo yêu cầu. Microsoft nhấn mạnh rằng MAI-Voice-1 cũng đã được tối ưu hóa sâu sắc về hiệu suất và có thể tạo ra âm thanh lên tới 1 phút trong vòng chưa đầy 1 giây trên một GPU, có tính đến cả chất lượng và hiệu quả.
Đồng thời, Microsoft cũng đã bắt đầu thử nghiệm công khai bản xem trước MAI-1 trên nền tảng đánh giá cộng đồng LMArena, nền tảng nổi tiếng với việc đánh giá so sánh nhiều mô hình ngôn ngữ lớn khác nhau. MAI-1-preview được định vị là mô hình cơ bản tự phát triển "từ đầu đến cuối" đầu tiên trong hệ thống MAI, cung cấp cửa sổ xem trước để triển khai các mô hình mạnh hơn trong Copilot và nhiều sản phẩm khác trong tương lai. Microsoft cho biết nhóm đang tiếp tục thúc đẩy việc lặp lại mô hình thông qua "hiệu ứng bánh đà" và sẽ công bố nhiều tiến bộ hơn trong những tháng tới.
Trên con đường kỹ thuật, MAI-1-preview áp dụng kiến trúc MoE (Kết hợp các chuyên gia, Kết hợp các chuyên gia) và hoàn thành đào tạo trước và sau đào tạo trên gần 15.000 GPU NVIDIA H100. Đây là mô hình cơ bản đầu tiên của Microsoft được đào tạo nội bộ hoàn toàn. Microsoft cho biết mô hình này có hiệu suất vượt trội về khả năng tuân theo lệnh, có thể hiểu rõ hơn ý định của người dùng và cung cấp các câu trả lời hữu ích và theo ngữ cảnh hơn cho các câu hỏi hàng ngày. Tiếp theo, Microsoft sẽ tích hợp bản xem trước MAI-1 vào một số tình huống sử dụng liên quan đến tạo văn bản trong Copilot theo từng giai đoạn trong vòng vài tuần.
Điều đáng chú ý là Microsoft đã nêu rõ trong bản phát hành rằng bản xem trước MAI-1 sẽ không thay thế mô hình OpenAI hiện có trong Copilot. Chiến lược tổng thể của công ty là sử dụng đồng thời các mô hình hoạt động tốt nhất từ nhóm, đối tác và cộng đồng nguồn mở của chính mình để kết hợp và lên lịch linh hoạt theo các nhiệm vụ và kịch bản khác nhau. Hiện tại, MAI-1-preview đã được mở thử nghiệm trên LMArena để kiểm tra toàn diện hơn khả năng của nó. Ngoài ra, mô hình cũng đã được mở cho một số người dùng thử nghiệm đáng tin cậy thông qua API.
Khi giới thiệu mô hình mới, nhóm AI của Microsoft cho biết MAI đã kích hoạt cụm điện toán GB200 thế hệ mới và lộ trình cũng như dự trữ năng lượng điện toán trong tương lai là rất "thú vị". Nhóm cho biết sứ mệnh của họ vô cùng tham vọng và cũng rất may mắn khi có thể hợp tác chặt chẽ với nhiều nhóm sản phẩm hàng đầu, giúp các mô hình tự phát triển có cơ hội tiếp cận hàng tỷ người dùng và tạo ra tác động rộng rãi và tích cực.
Bằng cách độc lập phát triển và triển khai nhiều mô hình cơ bản trong khi tiếp tục sử dụng các mô hình OpenAI, Microsoft đang xây dựng cơ sở hạ tầng AI mạnh mẽ và đa dạng hơn cho các sản phẩm và dịch vụ của mình nhằm nâng cao khả năng "tự cung cấp AI" chiến lược dài hạn của mình.