Alphabet (công ty mẹ của Google) đã phát hành Gemini 3.1 Flash Live, một mô hình trí tuệ nhân tạo mới được thiết kế đặc biệt cho các ứng dụng âm thanh và video thời gian thực. Động thái này báo hiệu sự cạnh tranh ngày càng tăng trong lĩnh vực AI đa phương thức. Google cho biết đây là hệ thống âm thanh và giọng nói tốt nhất mà hãng từng xây dựng. Mô hình này được thiết kế để mang lại trải nghiệm đàm thoại tự nhiên hơn và phản hồi nhanh hơn cho các sản phẩm tiêu dùng và doanh nghiệp. Bản phát hành này hướng đến các nhà phát triển, doanh nghiệp và người dùng thông thường muốn có trải nghiệm tương tác bằng giọng nói mượt mà hơn.

Google cho biết Gemini 3.1 Flash Live nhanh hơn mô hình thế hệ trước và có thể tăng gấp đôi thời gian bộ nhớ ngữ cảnh hội thoại. Điều này làm cho mô hình trở nên thực tế hơn trong các tình huống hội thoại dài như động não, tìm kiếm trong thời gian thực và trao đổi câu hỏi và câu trả lời phức tạp.

Mô hình này hiện được tích hợp vào một số sản phẩm của Google, bao gồm Gemini Live, Search Live, Gemini Live API trong Google AI Studio và Gemini Enterprise. Sự tích hợp rộng rãi này cho thấy Google đang tích hợp công nghệ AI mới nhất của mình vào toàn bộ hệ sinh thái thay vì chỉ tung ra nó như một sản phẩm độc lập.

Sự thay đổi này rất quan trọng vì khả năng đa phương thức và giọng nói theo thời gian thực đang trở thành chiến trường quan trọng trong AI và các nền tảng chính đang chạy đua để làm cho chúng dễ sử dụng hơn và được sử dụng rộng rãi hơn trong kinh doanh.