Speechify khởi chạy ứng dụng Windows gốc sử dụng mô hình AI cục bộ để thúc đẩy tính năng đọc chính tả và phiên âm

Công ty Speech AI Speechify gần đây đã ra mắt một ứng dụng Windows gốc dựa trên các mô hình AI được lưu trữ cục bộ để hỗ trợ tính năng đọc chính tả bằng giọng nói trên nhiều ứng dụng ở cấp hệ thống và có thể đọc to các trang web, tài liệu, tệp PDF và các nội dung khác. Động thái này của công ty đối đầu với các ứng dụng phiên âm và đọc chính tả đa nền tảng tương tự như Wispr Flow, Willow và Superwhisper.

Speechify cho biết ứng dụng Windows có sẵn trên PC Copilot+ (các mẫu có NPU AMD, Intel và Qualcomm), cũng như các mẫu Windows 11 khác có GPU Intel hoặc AMD Có thể xử lý giọng nói cục bộ hoàn chỉnh trên máy tính mà không cần tải âm thanh lên đám mây. Ứng dụng chạy ba loại mô hình cục bộ và đồng thời: mô hình chuyển văn bản thành giọng nói thần kinh để đọc to, mô hình phát hiện hoạt động giọng nói để phát hiện xem người dùng có đang nói trong thời gian thực hay không và mô hình phiên âm dựa trên Whisper. Người dùng cũng có thể chuyển sang mô hình đám mây trong cài đặt hoặc chuyển đổi giữa chế độ xử lý cục bộ và đám mây nếu cần trong quá trình sử dụng.

Theo dữ liệu được công ty tiết lộ, Speechify có hơn 50 triệu người dùng trên toàn thế giới. Trong số đó, mô hình VITS Neural có thể tạo ra âm thanh ở 7 tốc độ nói khác nhau, cho phép người dùng điều chỉnh tốc độ đọc theo thói quen cá nhân và nghe trang web, tài liệu hoặc nội dung văn bản khác. Để phát hiện hoạt động giọng nói, Speechify sử dụng mô hình nguồn mở Silero để xác định thời điểm người dùng bắt đầu hoặc dừng nói, từ đó cải thiện tính trôi chảy và chính xác của việc đọc chính tả và chép lời theo thời gian thực.

Speechify người sáng lập và Giám đốc điều hành Cliff Weitzman cho biết trong một tuyên bố rằng hơn 1 tỷ người trên thế giới sử dụng Windows và với việc ra mắt ứng dụng Windows này, công ty hy vọng đảm bảo rằng "việc đọc và thậm chí cả viết sẽ không còn là rào cản đối với công việc của bất kỳ ai" bất kể thiết bị họ sử dụng hay cách họ thích làm việc. Ông đặc biệt nhấn mạnh tiềm năng của thị trường doanh nghiệp, cho biết một số lượng lớn người dùng tại nơi làm việc đã tích cực yêu cầu sử dụng Speechify trên PC và các ứng dụng gốc của Windows sẽ giúp đáp ứng nhu cầu này.

Vào tháng 2 năm nay, Speechify vừa ra mắt chức năng phiên âm cuộc họp tương tự như Granola, có thể phiên âm và tóm tắt các cuộc họp trực tuyến trong môi trường trình duyệt, nhưng tại thời điểm đó, chức năng này chỉ giới hạn trong các tình huống cuộc họp dựa trên trình duyệt. Với sự cải tiến dần dần của ứng dụng gốc đa nền tảng, công ty dự kiến sẽ di chuyển khả năng phiên âm cuộc họp này sang máy khách cục bộ của mỗi nền tảng để người dùng có thể hoàn tất việc ghi và phiên âm cuộc họp trực tiếp ở cấp hệ thống bất kể họ sử dụng phần mềm hội nghị hay cửa sổ trình duyệt nào.

Trước đó, Speechify chủ yếu tập trung vào các kịch bản chuyển văn bản thành giọng nói trong nhiều năm, chẳng hạn như đọc to các bài báo và email hoặc "chuyển nội dung tài liệu thành podcast" để người dùng nghe. Gần đây, công ty đã tập trung phát triển theo hướng "ứng dụng giọng nói toàn diện" và đã liên tục tung ra tính năng đọc chính tả bằng giọng nói, phiên âm hội nghị, trợ lý giọng nói và các chức năng khác, cố gắng bao trùm liên kết sử dụng giọng nói hoàn chỉnh từ đọc, nhập liệu đến tương tác trợ lý thông minh.

Tìm hiểu thêm:

https://apps.microsoft.com/detail/9n58gbx6x3vj?cid=DevShareMCLPCS&hl=zh-CN