DeepL, một công ty AI nổi tiếng với các công cụ dịch văn bản, hôm nay đã phát hành danh mục sản phẩm dịch từ giọng nói sang giọng nói để tham gia vào thị trường dịch giọng nói theo thời gian thực, bao gồm nhiều tình huống khác nhau như cuộc họp trực tuyến, cuộc trò chuyện trên thiết bị di động và web cũng như giao tiếp nhóm nơi nhân viên tuyến đầu tham gia thông qua các ứng dụng tùy chỉnh. Đồng thời, DeepL cũng tung ra API dành cho các nhà phát triển và doanh nghiệp để hỗ trợ các giải pháp dịch giọng nói tùy chỉnh cho các trung tâm cuộc gọi và các doanh nghiệp khác dựa trên công nghệ của mình.

Giám đốc điều hành DeepL Jarek Kutylowski cho biết trong một cuộc phỏng vấn rằng sau nhiều năm kinh nghiệm sâu sắc trong lĩnh vực dịch văn bản, giọng nói là “bước tiếp theo tự nhiên” của công ty. Ông nhấn mạnh DeepL đã đi được một chặng đường dài trong lĩnh vực dịch thuật văn bản và tài liệu, nhưng trong lĩnh vực dịch giọng nói theo thời gian thực, “vẫn còn thiếu một sản phẩm thực sự nổi bật”, đó là lý do công ty quyết định tham gia.
Kutrovsky đã chỉ ra rằng khó khăn cốt lõi trong việc xây dựng các sản phẩm dịch thuật thời gian thực là làm thế nào để đạt được sự cân bằng giữa việc giảm độ trễ và duy trì độ chính xác. Cái gọi là độ trễ đề cập đến sự khác biệt về thời gian giữa thời điểm người dùng nói và khi giọng nói được dịch được phát. Trong các kịch bản hội nghị và đối thoại, sự khác biệt càng nhỏ thì trải nghiệm giao tiếp của người dùng càng gần với "đối thoại đồng thời".
Trong bản phát hành này, DeepL ra mắt các plugin dành cho Zoom và Microsoft Teams, cho phép người nghe trong các cuộc họp từ xa lắng nghe tất cả các bên nói bằng ngôn ngữ mẹ đẻ của họ trong khi nghe giọng nói được dịch trong thời gian thực hoặc đọc phụ đề được dịch theo thời gian thực trên màn hình. Chương trình vẫn đang trong giai đoạn thử nghiệm sớm và DeepL đang mời các doanh nghiệp tham gia danh sách chờ để trở thành những người đầu tiên dùng thử tính năng này. Ngoài ra, công ty còn cung cấp các sản phẩm hội thoại cho thiết bị đầu cuối di động và trang web, cho phép người dùng giao tiếp đa ngôn ngữ trực tiếp hoặc từ xa.
Đối với các tình huống nhóm ngoại tuyến hoặc trực tuyến có nhiều người, chẳng hạn như đào tạo và hội thảo, DeepL cho phép người tham gia tham gia cùng một phiên bằng cách quét mã QR và mọi người đều có thể nhận nội dung được dịch bằng ngôn ngữ tương ứng trên thiết bị của riêng họ. DeepL cho biết công nghệ chuyển giọng nói của họ cũng có thể học và điều chỉnh từ vựng tùy chỉnh, chẳng hạn như thuật ngữ ngành dọc, tên công ty và tên cá nhân, để cải thiện việc sử dụng nó trong các tình huống chuyên nghiệp.
Kutrovsky tin rằng AI sẽ định hình lại hình dạng của ngành dịch vụ khách hàng trong vài năm tới. Lớp dịch thuật chất lượng cao có thể giúp các công ty vẫn cung cấp hỗ trợ dịch vụ đa ngôn ngữ trong một thị trường đang thiếu nhân lực ngôn ngữ địa phương và chi phí tuyển dụng cao. Với tầm nhìn này, DeepL hy vọng rằng công nghệ giọng nói của mình sẽ không chỉ phục vụ các kịch bản hội nghị mà còn trở thành một trong những cơ sở hạ tầng ngôn ngữ cơ bản cho các trung tâm dịch vụ khách hàng và doanh nghiệp toàn cầu.
Về lộ trình kỹ thuật, DeepL cho biết sản phẩm hiện tại được thúc đẩy bởi chuỗi công nghệ "lời nói thành giọng nói" hoàn chỉnh do tự phát triển, nhưng ở giai đoạn này nó vẫn sử dụng quy trình ba bước là "lời nói thành văn bản - dịch văn bản - văn bản thành lời nói". Công ty tin rằng việc tập trung lâu dài vào dịch thuật văn bản sẽ mang lại lợi thế cho chất lượng dịch thuật tổng thể. Trong tương lai, DeepL có kế hoạch phát triển mô hình dịch giọng nói từ đầu đến cuối, bỏ qua các bước trung gian của văn bản để đạt được những cải tiến hơn nữa về độ trễ và độ tự nhiên.
Trong lĩnh vực ngôn ngữ và dịch thuật, DeepL phải đối mặt với sự cạnh tranh từ nhiều công ty khởi nghiệp. Trong số đó, Sanas đã huy động được 65 triệu USD từ Quadrille Capital và Teleperformance vào năm ngoái. Nó tập trung vào công nghệ điều chỉnh giọng nói của người nói theo thời gian thực, chủ yếu dành cho các nhân viên của trung tâm cuộc gọi. Camb.AI, có trụ sở chính tại Dubai, cung cấp dịch vụ dịch thuật và tổng hợp giọng nói cho các công ty truyền thông và giải trí, giúp khách hàng hoàn thành việc lồng tiếng và bản địa hóa nội dung quy mô lớn. Palabra, được đầu tư bởi quỹ Seven Seven Six của người đồng sáng lập Reddit, Alexis Ohanian, xây dựng một công cụ dịch giọng nói theo thời gian thực, nhấn mạnh việc cố gắng giữ lại các đặc điểm giọng nói ban đầu của người nói trong quá trình dịch, hình thành mối quan hệ cạnh tranh trực tiếp hơn với các khả năng do DeepL xây dựng.
Sau khi tạo dựng được chỗ đứng trên thị trường dịch văn bản, DeepL đang cố gắng mở rộng ranh giới của mình thông qua các sản phẩm thoại, mở rộng công nghệ sang các tình huống cộng tác hội nghị, dịch vụ khách hàng và hoạt động tuyến đầu. Khi ngày càng nhiều công ty tìm cách sử dụng AI để giảm chi phí giao tiếp giữa các ngôn ngữ, việc dịch giọng nói theo thời gian thực dự kiến sẽ trở thành tâm điểm của một vòng cạnh tranh mới và DeepL đang đẩy nhanh việc triển khai trên đường đua này.