Microsoft gần đây đã mở rộng dòng mô hình trí tuệ nhân tạo tự phát triển và chính thức ra mắt mô hình chuyển giọng nói thành văn bản MAI-Transcribe-1 mới. Nó tuyên bố rằng tỷ lệ lỗi từ trung bình (WER) trong 25 ngôn ngữ chỉ là 3,9%, khiến nó trở thành mô hình phiên âm chính xác nhất trên thế giới. Trước đây, Microsoft đã phát hành mô hình tổng hợp giọng nói MAI-Voice-1 và mô hình tạo hình ảnh MAI-Image-2. MAI-Transcribe-1 đã trở thành mẫu máy dòng MAI tự phát triển thứ ba của công ty được công bố với thế giới bên ngoài.

Theo Microsoft, MAI-Transcribe-1 hoạt động tốt trên điểm chuẩn tiêu chuẩn ngành FLEURS, xếp thứ 11 trong số 25 ngôn ngữ hàng đầu trên thế giới. Đứng đầu trong số các "ngôn ngữ cốt lõi", bao gồm các kịch bản thử nghiệm kết hợp ngôn ngữ như tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Ý, tiếng Tây Ban Nha, tiếng Hindi, tiếng Bồ Đào Nha, tiếng Séc, tiếng Đan Mạch, tiếng Phần Lan, tiếng Hungary, tiếng Hà Lan, tiếng Ba Lan, tiếng Rumani, tiếng Thụy Điển, tiếng Nhật, tiếng Hàn, tiếng Trung, tiếng Ả Rập, tiếng Indonesia, tiếng Nga, tiếng Thái, tiếng Thổ Nhĩ Kỳ và tiếng Việt. Trong 14 ngôn ngữ còn lại, mô hình này cũng vượt qua hoàn toàn Whisper-large-v3 của OpenAI và đánh bại mô hình Google Gemini 3.1 Flash mới phát hành gần đây ở 11 ngôn ngữ.
Microsoft tuyên bố rằng MAI-Transcribe-1 có thể duy trì độ chính xác cao cạnh tranh trong tất cả 25 ngôn ngữ được hỗ trợ và phù hợp với nhiều tình huống phiên âm giọng nói khác nhau bao gồm nhiều ngôn ngữ, bao gồm nội dung giọng nói chung, bản ghi cuộc họp đa ngôn ngữ, phiên âm nội dung đa phương tiện, v.v. Tuy nhiên, phiên bản hiện tại chưa hỗ trợ các tính năng nâng cao như phiên âm thời gian thực, tách loa (lọc lịch) và trọng số từ ưa thích (xu hướng). Microsoft có kế hoạch hoàn thiện những khả năng này trong các lần lặp tiếp theo.
Về hiệu suất, Microsoft nhấn mạnh rằng mẫu máy mới nhanh hơn đáng kể so với các giải pháp hiện có về tác vụ sao chép hàng loạt và tốc độ sao chép hàng loạt của nó gấp khoảng 2,5 lần so với sản phẩm Microsoft Azure Fast hiện tại. MAI-Transcribe-1 có sẵn cho các doanh nghiệp và nhà phát triển thông qua nền tảng Microsoft Foundry, bắt đầu từ 0,36 USD mỗi giờ. Microsoft tuyên bố rằng đây là một trong những mô hình phiên âm giọng nói “tiết kiệm chi phí nhất” trong số các nhà cung cấp dịch vụ đám mây lớn.
Ngoài mô hình phiên âm, Microsoft cũng thông báo cùng ngày rằng họ sẽ chính thức giới thiệu hai mô hình là MAI-Image-2 và MAI-Voice-1 cho nền tảng Microsoft Foundry. Trong số đó, mô hình tổng hợp giọng nói MAI-Voice-1 có giá 22 USD trên 1 triệu ký tự và các nhà phát triển cũng có thể tạo giọng nói tùy chỉnh dựa trên mô hình này thông qua tính năng Giọng nói cá nhân của Azure Speech. Mô hình tạo hình ảnh MAI-Image-2 áp dụng mô hình thanh toán cho mỗi mã thông báo, tính phí 5 USD cho mỗi 1 triệu mã thông báo cho phần nhập văn bản và 33 USD cho mỗi 1 triệu mã thông báo cho phần đầu ra hình ảnh.
Với việc phát hành MAI-Transcribe-1 và ra mắt đầy đủ MAI-Voice-1 và MAI-Image-2, Microsoft đang tiếp tục tăng cường khả năng tự nghiên cứu của mình trong các lĩnh vực AI đa phương thức như nhận dạng giọng nói, tổng hợp giọng nói và tạo hình ảnh, cố gắng giảm sự phụ thuộc vào công nghệ của đối tác đồng thời cung cấp cho các nhà phát triển một bộ kết hợp mô hình với hiệu suất cao hơn và lợi thế về chi phí thông qua nền tảng Foundry.