Bytedance ra mắt mô hình giọng nói song công hoàn toàn Seeduplex

Vào ngày 9 tháng 4, ByteDance đã ra mắt Seeduplex, một mô hình giọng nói song công hoàn toàn gốc quy mô lớn, hiện đã được ra mắt hoàn toàn trên Ứng dụng Doubao. Mô hình này dựa trên thiết kế khung mới "nghe và nói cùng một lúc". So với mô hình giọng nói đầu cuối bán song công thế hệ trước, nó đạt được sự tương tác theo thời gian thực giữa nghe và nói đồng thời, đồng thời cải thiện nhịp điệu hội thoại, độ tự nhiên và khả năng chống nhiễu.

Theo giới thiệu chính thức, Seeduplex đã vượt qua những thách thức kỹ thuật như độ trễ và độ ổn định trong điều kiện đồng thời cao thông qua đổi mới kiến trúc mô hình và tối ưu hóa đào tạo. Về khả năng chống nhiễu chính xác, mô hình này có khả năng "lắng nghe" liên tục, hiểu môi trường âm thanh nơi người dùng đang ở và bỏ qua chính xác tiếng ồn xung quanh và các cuộc trò chuyện không liên quan. Trong các tình huống phức tạp, tỷ lệ trả lời sai và tỷ lệ gián đoạn sai giảm 50% so với mô hình bán song công. Về mặt ra quyết định động, mô hình kết hợp các đặc điểm ngôn ngữ và ngữ nghĩa để xác định toàn diện ý định của người dùng. Nó có thể kiên nhẫn lắng nghe khi người dùng do dự và phản hồi nhanh chóng sau khi người dùng nói xong. Tỷ lệ cuộc gọi ưu tiên giảm 40% so với mô hình bán song công và hiệu suất ra quyết định được cải thiện 8%.

Đánh giá đa chiều cho thấy Seeduplex tốt hơn đáng kể so với giải pháp bán song công truyền thống và chức năng gọi thoại của các ứng dụng phổ thông trong ngành về độ trôi chảy và nhịp điệu hội thoại. Mô hình này là mô hình đầu tiên trong ngành được triển khai trên quy mô lớn và có thể cung cấp trải nghiệm tương tác giọng nói theo thời gian thực chất lượng cao liên tục cho hàng trăm triệu người dùng.