“Project Gutenberg” sử dụng công nghệ chuyển văn bản thành giọng nói thần kinh để phát hành 5.000 cuốn sách nói miễn phí

Sách nói đã trở nên phổ biến trong những năm gần đây do tính dễ đọc, nhưng việc ghi sách nói rất khó và tốn kém. Gần đây, các nhà nghiên cứu đã trình diễn một phương pháp tự động sử dụng tính năng chuyển văn bản thành giọng nói tổng hợp để giải quyết nhiều vấn đề mà công nghệ này gặp phải và cho phép người dùng thông thường sản xuất sách nói. Giờ đây, độc giả có thể nghe miễn phí hàng nghìn cuốn sách nói văn học cổ điển và các tài liệu thuộc phạm vi công cộng khác thông qua Project Gutenberg. Các nhà nghiên cứu tại Microsoft và MIT đã tạo ra bộ sưu tập này bằng cách quét sách bằng phần mềm chuyển văn bản thành giọng nói.

Những văn bản này bao gồm các tác phẩm của Shakespeare, Agatha Christie, Jane Austen, Leonardo da Vinci và những người khác. Người dùng có thể nghe trên InternetArchive, Spotify, ApplePodcasts và GooglePodcasts:

https://marhamilresearch4.blob.core.Windows.net/gutenberg-public/Website/index.html

Mã được sử dụng để xây dựng bộ sưu tập sách nói có sẵn trên GitHub:

https://githu b.com/microsoft/SynapseML

Apple bắt đầu bán sách nói sử dụng công nghệ chuyển văn bản thành giọng nói tự động vào tháng 1 năm nay. Tuy nhiên, nỗ lực này đã vấp phải sự hoài nghi từ cơ sở văn học, những người chỉ trích mục tiêu kinh doanh của Apple và từ các diễn viên lồng tiếng cung cấp chương trình đào tạo cho trí tuệ nhân tạo của công ty. Cách tiếp cận của Gutenberg có thể gây ra những phản ứng trái chiều vì nó là nguồn mở và không có động cơ lợi nhuận.

Project Gutenberg đã dành nhiều thập kỷ để xây dựng kho tài liệu miễn phí ở định dạng văn bản được cung cấp miễn phí và rộng rãi, nhưng sách nói có thể giúp tài liệu này dễ tiếp cận hơn. Sách nói rất hữu ích cho những độc giả lái xe, làm nhiều việc cùng lúc, khiếm thị, học đọc hoặc học một ngôn ngữ mới.

Sử dụng các phương pháp truyền thống để sản xuất sách nói, cần có thời gian và tiền bạc để có người đọc toàn bộ cuốn sách. Việc ghi lại phiên bản âm thanh của mỗi cuốn sách đáng đọc theo cách thủ công sẽ không hiệu quả về mặt chi phí. Công nghệ chuyển văn bản thành giọng nói phù hợp hơn với Project Gutenberg. Tuy nhiên, các nhà nghiên cứu phải đối mặt với nhiều trở ngại với các công cụ học máy của họ.

Câu hỏi đầu tiên và quan trọng nhất là xác định những cuốn sách kỹ thuật số nào mà phần mềm có thể phân tích cú pháp. Project Gutenberg thu thập tài liệu ở nhiều định dạng khác nhau và nhiều tệp có lỗi hoặc bản quét không hoàn hảo. Vì vậy, các nhà nghiên cứu đã tập trung vào những cuốn sách được lưu trữ ở định dạng tệp HTML và xây dựng một công cụ (như hình trên) để khám phá những mục nào hiển thị định dạng tương tự.

Một vấn đề khác mà các nhà nghiên cứu đã giải quyết là đảm bảo rằng hệ thống biết văn bản nào cần đọc hoặc bỏ qua. Nó bao gồm các thành phần như mục lục, số trang, chú thích cuối trang, bảng biểu và các tài liệu không liên quan khác.

Ngoài ra, kết quả cần có âm thanh đủ gần với giọng nói tự nhiên của con người. Các nhà nghiên cứu tập trung vào cách thể hiện giọng nói phù hợp nhất với truyện phi hư cấu và tường thuật, nhưng người dùng cũng có thể điều chỉnh phần mềm để thử nghiệm các bài đọc kịch tính.

Các nhà nghiên cứu dự định tổ chức một cuộc trình diễn cho phép người dùng tạo sách nói bằng giọng nói của chính họ. Sau khi ghi lại một vài câu để huấn luyện thuật toán, mỗi người tham gia có thể nghe một đoạn mẫu trước khi cho phần mềm đọc toàn bộ cuốn sách. Họ cũng sẽ nhận được một bản sao của cuốn sách nói qua email. Người dùng có thể chọn từ các giọng nói tổng hợp để tùy chỉnh từng sách nói.

Truy cập:

Đám mây Alibaba - Voucher phổ thông lên tới 1888 nhân dân tệ có sẵn ngay lập tức