Vào ngày 21 tháng 4, một nhóm từ Đại học Washington ở Hoa Kỳ đã trình diễn một nguyên mẫu tai nghe mới có tên VueBuds. Nó nhúng một camera thu nhỏ vào tai nghe không dây thực sự thông thường và kết hợp nó với mô hình ngôn ngữ hình ảnh (VLM). Nó có thể mô tả khung cảnh trong tầm nhìn của người đeo trong thời gian thực, xác định các vật thể và dịch nó thông qua tương tác bằng giọng nói. Nó được các nhà nghiên cứu mô tả là "phiên bản tìm kiếm hình ảnh ngược chỉ bằng giọng nói trên thiết bị di động".

VueBuds dựa trên Sony WF-1000XM3. Việc chuyển đổi tai nghe chống ồn không dây sẽ nhúng một camera đen trắng cỡ hạt gạo vào vỏ tai nghe và sử dụng mô hình ngôn ngữ hình ảnh tích hợp để xử lý cục bộ hoặc băng thông thấp. Người dùng chỉ cần đặt câu hỏi để nhận được lời giải thích và bản dịch mô tả giọng nói, tên đồ vật hoặc nội dung văn bản của cảnh trước mặt. Nhóm nghiên cứu đã xuất bản một bài báo tại CHI 2026, một hội nghị quan trọng trong lĩnh vực tương tác giữa người và máy tính, trình bày chi tiết về thiết kế và kết quả thử nghiệm của hệ thống này.
Một trong những người đứng đầu dự án, Shyam Gollakota, giáo sư tại Trường Khoa học và Kỹ thuật Máy tính Paul G. Allen thuộc Đại học Washington, cho biết nhóm đã học được đầy đủ bài học của Google Glass khi thiết kế - loại kính sau này bị công chúng chế giễu là "Lỗ thủy tinh" do vẻ ngoài đột ngột và tranh cãi lớn về quyền riêng tư, và cuối cùng đã thất bại. Gollakota chỉ ra rằng so với kính, nhiều người không thích đeo các thiết bị hiển thị vào khuôn mặt của họ và tai nghe vốn đã là một hình thức đeo rất phổ biến và được xã hội chấp nhận. Vì vậy, việc "giấu" chức năng hình ảnh vào tai nghe được kỳ vọng sẽ đạt được sự cân bằng tốt hơn giữa khả năng sử dụng và quyền riêng tư.
Từ cấp độ phần cứng, VueBuds sử dụng camera đen trắng có độ phân giải thấp và đường truyền băng thông thấp để kiểm soát mức tiêu thụ điện năng dưới 5 mW và tự động tắt khi không sử dụng để tiết kiệm điện. Các nhà nghiên cứu cho biết, trong cuộc thử nghiệm với 90 người dùng và 17 nhiệm vụ hỏi đáp trực quan, chất lượng trả lời của VueBuds tương đương với kính thông minh Ray-Ban Meta có camera tích hợp và mẫu lớn, cho thấy tiềm năng đưa khả năng mô hình ngôn ngữ hình ảnh đang phát triển nhanh chóng vào dạng thiết bị tai nghe phổ biến.
Trong video trình diễn, một người đàn ông đeo VueBuds đứng trong bếp của căn hộ và đưa ra yêu cầu "Hãy mô tả khung cảnh trước mặt tôi." Khoảng một giây sau, một AI với giọng điệu thoải mái và bắt chước giọng nữ của con người phát ra từ tai nghe. Trả lời: "Tôi thấy khu vực bếp có cửa sổ đón nhiều ánh sáng. Trên mặt bàn có một số chai lọ và một cuốn sách. Trên cửa sổ có rèm và có bồn rửa ở phía bên trái." Sau đó, khi anh nhìn vào bìa đĩa hát và hỏi tên album, hệ thống nhanh chóng xác định đó là bìa album "Abbey Road" của Beatles.
Theo dữ liệu thử nghiệm được tiết lộ trong bài báo, trong thử nghiệm với 16 người tham gia, VueBuds đã đạt được độ chính xác khoảng 83% trong các nhiệm vụ nhận dạng và dịch đối tượng, đồng thời đạt độ chính xác khoảng 93% trong các nhiệm vụ như xác định tên sách và tác giả. Ví dụ, nhóm nghiên cứu cho biết trong tương lai, người dùng dự kiến sẽ sử dụng hệ thống này để đọc truyện tranh Hàn Quốc chưa được dịch hoặc gọi những món ăn ẩn “chỉ có trong thực đơn Trung Quốc” tại một nhà hàng Trung Quốc mà không bị giới hạn bởi khả năng ngôn ngữ của chính họ.
Trả lời câu hỏi thường gặp “nếu camera tai nghe được đặt ở hai bên khuôn mặt, liệu tầm nhìn có bị chặn bởi chính đầu người đeo không?” các nhà nghiên cứu giải thích rằng VueBuds dựa trên nguyên tắc thị sai hai mắt của con người và sử dụng các góc nhìn khác nhau của hai camera để thực hiện phản ứng tổng hợp "tầm nhìn lập thể", từ đó đạt được khả năng hiểu được cảnh phía trước. Tuy nhiên, do hiện chỉ hỗ trợ hình ảnh đen trắng nên VueBuds không thể trả lời các câu hỏi liên quan đến màu sắc; điều hướng và dịch thuật có độ chính xác cao trong các cảnh phức tạp vẫn yêu cầu camera màu có độ phân giải cao hơn và khả năng tính toán mạnh hơn.
Giới hạn về nguồn điện và khả năng tính toán cũng có nghĩa là VueBuds hiện không thể thu thập và xử lý các luồng video liên tục với băng thông cao và chỉ phù hợp để sử dụng theo kiểu "chụp ảnh + hỏi đáp" không liên tục. Mặc dù vậy, nhóm nghiên cứu tin rằng sự cân bằng giữa mức tiêu thụ năng lượng, âm lượng và tốc độ phản hồi là đủ để chứng minh tính khả thi của hình thức này như một "nền tảng trí tuệ thị giác" và đưa ra hướng đi mới cho việc mở rộng chức năng của các thiết bị tai nghe trong tương lai.
Đồng thời, rủi ro về quyền riêng tư và bảo mật cũng trở thành chủ đề không thể tránh khỏi. Bài báo chỉ ra rằng cách đây vài năm, một công ty đã đề xuất một ứng dụng có thể "xác định tên người lạ bằng cách chụp ảnh". Vào thời điểm đó, câu trả lời mỉa mai phổ biến trên Internet là: "Trong trường hợp đó, phụ nữ sẽ chết vì điều này". VueBuds chỉ cung cấp các biện pháp bảo mật hạn chế ở giai đoạn này, chẳng hạn như “đèn báo hoạt động” nhỏ trên tai nghe nhưng người quan sát thường không nhận ra rằng một cặp tai nghe đang chụp ảnh. Kết hợp với việc thu thập âm thanh, kết nối Bluetooth và dịch vụ nhận dạng khuôn mặt của bên thứ ba, một khi loại thiết bị này bị lạm dụng, nó có thể gây ra mối đe dọa nghiêm trọng về quyền riêng tư mà "độ phân giải thấp vẫn gây tử vong".
Bài báo chỉ ra rằng nếu các cơ quan quản lý có thể xây dựng và thực hiện các quy tắc hiệu quả để đảm bảo an toàn công cộng và quyền riêng tư cá nhân không bị vi phạm, thì những thiết bị tai nghe "đọc sách" như vậy dự kiến sẽ mang lại sự tiện lợi đáng kể cho các nhóm như người khiếm thị, cải thiện đáng kể chất lượng cuộc sống và sự tự do của họ trong việc đi lại, học tập, giải trí, v.v. Đại học Washington nhấn mạnh trong thông cáo báo chí chính thức rằng VueBuds vẫn đang trong giai đoạn nguyên mẫu nghiên cứu khoa học, nhưng nó đã cho thấy triển vọng tích hợp ngôn ngữ hình ảnh mô hình hóa thành các thiết bị đeo được hàng ngày. Trong tương lai, nó có thể tạo ra một dạng sản phẩm tai nghe thông minh "nghe được và nhìn thấy được" thế hệ mới.