Google ra mắt mô hình chuyển văn bản thành giọng nói Gemini 3.1 Flash TTS, hỗ trợ gần 70 ngôn ngữ

Google đã công bố ra mắt mô hình chuyển văn bản thành giọng nói mới Gemini‑TTS trong dòng Gemini 3.1, được mô tả chính thức là "giải pháp chuyển văn bản thành giọng nói biểu cảm nhất cho đến nay". Mô hình mới có thể tạo ra giọng nói có âm thanh tự nhiên, độ trung thực cao, đồng thời cho phép các nhà phát triển kiểm soát cảm xúc, nhịp điệu và phong cách nói thông qua các lời nhắc, chẳng hạn như điều chỉnh chính xác giọng điệu, khoảng dừng và thay đổi cảm xúc trong lời tường thuật hoặc hội thoại.

Về khả năng hỗ trợ đa ngôn ngữ, Gemini‑TTS bao gồm khoảng 70 ngôn ngữ, bao gồm tiếng Trung (Quan Thoại), tiếng Anh, tiếng Tây Ban Nha, tiếng Đức, tiếng Nhật và các ngôn ngữ chính thống khác. Mô hình có thể tự động phát hiện ngôn ngữ của văn bản đầu vào và tạo ra giọng nói tương ứng mà không cần đánh dấu loại ngôn ngữ theo cách thủ công. Khả năng này cho phép các nhà phát triển và doanh nghiệp sử dụng một bộ API thống nhất để cung cấp nội dung giọng nói đa ngôn ngữ cho người dùng toàn cầu trong các tình huống như sách nói, podcast, trợ lý giọng nói, robot dịch vụ khách hàng và ứng dụng giáo dục.

Google cũng nhấn mạnh rằng Gemini‑TTS cộng tác với các mẫu âm thanh khác trong dòng Gemini 3.1 (chẳng hạn như Gemini 3.1 Flash Live) để nâng cao hơn nữa khả năng "trải nghiệm giọng nói theo thời gian thực". Trong đối thoại thời gian thực, dịch giọng nói và tương tác đa phương thức, hệ thống có thể duy trì độ trễ thấp trong khi kiểm soát tinh vi đầu ra giọng nói thông qua lời nhắc văn bản và điểm đánh dấu âm thanh, cho phép các tác nhân AI tiến gần hơn đến tương tác giọng nói tự nhiên của con người trong các tình huống như cuộc gọi điện thoại, cuộc họp và điều hướng.