Các nhóm robot âm thanh tự động cho phép trò chuyện im lặng trong những căn phòng bừa bộn

Các nhà nghiên cứu tại Đại học Washington cho biết giờ đây họ có thể tắt tiếng các phần khác nhau của căn phòng ồn ào hoặc tách biệt cuộc trò chuyện trong môi trường lộn xộn nhờ vào một nhóm robot âm thanh nhỏ có thể tự động định vị, xác định chính xác và theo dõi nhiều nguồn âm thanh chuyển động.

Con người chúng ta có thể tìm thấy nguồn âm thanh khi nhắm mắt nhờ vào mảng micrô kép được phân bố nhẹ và hiệu ứng che chắn âm thanh do tai chúng ta mang lại. Nhưng khi môi trường âm thanh trở nên phức tạp, mọi thứ có thể trở nên rất khó hiểu - điều gì đó đi ngược lại xu hướng đặc trưng của chúng ta là tìm kiếm những không gian ồn ào, đông đúc và tràn đầy năng lượng (như quán cà phê sáng Chủ nhật) rồi cố gắng tổ chức một cuộc trò chuyện trong đó.

Trong những không gian âm thanh lộn xộn hơn này, cách duy nhất để tách từng nguồn âm thanh riêng lẻ và tắt tiếng các nguồn khác là triển khai các dãy micrô lớn hơn, sau đó xử lý tất cả các luồng âm thanh cùng nhau để tạo ra bản đồ không gian tam giác hóa vị trí của từng âm thanh và đo chênh lệch thời gian rất nhỏ giữa âm thanh truyền qua không khí và truyền tới từng micrô. Sau đó, bạn có thể sử dụng các thuật toán học sâu khó nắm bắt để xử lý lại tất cả các luồng âm thanh, tạo các luồng âm thanh độc lập cho từng nguồn âm thanh và loại bỏ tất cả tiếng ồn khỏi các nguồn âm thanh khác.

Bằng cách định vị và theo dõi nhiều nguồn âm thanh trong phòng, mảng micrô rô-bốt có thể cách ly và tắt tiếng các khu vực âm thanh khác nhau Hình/Đại học Washington

Bản thân ý tưởng này không phải là mới, nhưng các nhà nghiên cứu của Đại học Washington hiện đã tạo ra một bước đột phá mới cho khái niệm này, bằng cách sử dụng một nhóm gồm bảy rô-bốt micrô có bánh xe nhỏ, mỗi rô-bốt có kích thước bằng một cây kẹo sôcôla, triển khai tự động từ trạm sạc và tạo một mảng tự tối ưu hóa trong không gian có sẵn.

Những robot này sử dụng micrô và loa tích hợp để điều hướng bề mặt bàn thông qua sóng siêu âm, tránh chướng ngại vật và tỏa rộng nhất có thể để tối đa hóa chênh lệch thời gian giữa các micrô. Thật không may, điều này có nghĩa là chúng phải được di chuyển từng cái một, nhưng khi đã vào đúng vị trí, chúng sẽ hoạt động khá đáng kinh ngạc, như bạn có thể thấy trong video bên dưới.

Vậy mục tiêu cuối cùng là gì? Nhóm nghiên cứu tin rằng mảng robot như thế này có thể được sử dụng làm mảng micrô cách âm, di động, được triển khai tự động cho các chương trình phát sóng trực tiếp trong phòng hội nghị và những hoạt động tương tự, về mặt lý thuyết sẽ phân tán giọng nói của chính chúng tốt hơn con người.

Nhóm cho biết tính năng này sẽ không được sử dụng nhiều trong các cuộc gọi video hai chiều vì mặc dù hoạt động hiệu quả nhưng hiện tại, nó mất khoảng 1,82 giây để xử lý mỗi khối âm thanh ba giây. Độ trễ cũng có nghĩa là nó sẽ không thể truyền âm thanh rõ ràng từ đối tác trò chuyện đến tai nghe trong quán cà phê ồn ào trong thời gian ngắn - mặc dù cả hai ứng dụng đều có thể thực hiện được khi sức mạnh tính toán và tốc độ được cải thiện.

Tất nhiên, nó cũng có thể trở thành một công cụ giám sát rất tiện lợi, loại bỏ hiệu ứng che giấu tiếng ồn của đám đông và ghi lại các cuộc trò chuyện riêng tư. Điều thú vị là nhóm nghiên cứu của Đại học Washington cho biết họ có thể làm điều ngược lại.

Nghiên cứu sinh tiến sĩ Malek Itani, đồng tác giả đầu tiên của nghiên cứu, cho biết: "Nó có tiềm năng mang lại lợi ích thực sự cho quyền riêng tư ngoài những gì loa thông minh hiện tại cho phép. Tôi có thể nói 'Đừng ghi bất cứ thứ gì xung quanh bàn làm việc của tôi' và hệ thống của chúng tôi sẽ cách tôi 3 feet." 0,9 mét). Không có gì trong bong bóng này sẽ được ghi lại. Hoặc, nếu có hai nhóm người đang nói chuyện gần đó và một nhóm đang trò chuyện riêng tư trong khi nhóm kia đang ghi âm thì cuộc trò chuyện của một nhóm có thể được đặt ở vùng tắt tiếng và vẫn ở chế độ riêng tư.Sau khi thả ra khỏi trạm sạc, robot sử dụng sóng siêu âm để phân bố xung quanh một bề mặt nhằm cách ly không gian tối đa

Trên thực tế, dãy micrô phân bố tĩnh có thể bắt đầu được sử dụng trong các phòng thông minh hoặc thiết kế nhà thông minh, nơi chúng có thể dễ dàng cách ly các lệnh điều khiển bằng giọng nói đến các khu vực khác nhau. Ví dụ: bạn có thể điều khiển TV chỉ bằng cách nghe âm thanh từ ghế dài hoặc thậm chí chọn đồ uống từ người đứng tại quầy bar ở một địa điểm ồn ào.

Bài báo được công bố trên tạp chí Nature Communications.