Kỹ sư chỉ chi 12 USD để gây ô nhiễm thành công nguồn thông tin AI và giả mạo mình là nhà vô địch trò chơi thế giới

Sử dụng công cụ tìm kiếm để tìm câu trả lời. Bạn có thể xem nhiều nguồn thông tin cạnh tranh và tự mình đánh giá tính xác thực. Nhưng các chatbot AI với tính năng tìm kiếm trên Internet sẽ đóng gói nội dung trực tuyến không đáng tin cậy thành các câu trả lời tiêu chuẩn chắc chắn. Một thử nghiệm đơn giản của một kỹ sư bảo mật đã tiết lộ rõ ràng lỗ hổng chết người này của AI.

vô địch.png chúa ơi1.png

Người khởi xướng thử nghiệm là kỹ sư bảo mật Ron Stoner. Mục tiêu anh chọn là trò chơi bài cổ điển của Đức "6Nimmt!". Trò chơi này được người chơi ở Trung Quốc biết đến với cái tên "Ai là vị vua đầu bò" và bản dịch tiếng Anh là "Take5". Không có chức vô địch thế giới chính thức nào cả chứ đừng nói đến nhà vô địch thế giới năm 2025.

Vào tháng 2, Stoner đã lặng lẽ chỉnh sửa mục Wikipedia của trò chơi, tự viết mình là nhà vô địch thế giới năm 2025 của trò chơi.

Anh ấy cũng đã chi 12 đô la Mỹ, tương đương khoảng 82 nhân dân tệ, để đăng ký tên miền 6nimmt.com, rất giống với tên của trò chơi và đăng một thông cáo báo chí giả mạo ăn mừng chiến thắng của anh ấy trên trang web làm nguồn tham khảo duy nhất cho mục nhập Wikipedia.

là một trò lừa đảo đơn giản và cực kỳ đơn giản nhưng đã dễ dàng đánh lừa nhiều chatbot AI chính thống. Khi anh ấy hỏi những AI có chức năng tìm kiếm trên Internet này về "danh tính vô địch" của mình, tất cả các robot đều đưa ra câu trả lời xác nhận một cách nghiêm túc, khẳng định chắc chắn rằng anh ấy hiện là nhà vô địch thế giới của trò chơi board game này.

"Trang web của tôi không có bằng chứng độc lập và tất cả đều là hư cấu. " Stoner nói thẳng trong blog của mình, "Cơ sở của toàn bộ lời nói dối chỉ là khi tôi uống cà phê. Một tên miền được đăng ký với giá 82 nhân dân tệ . ”

Cuộc tấn công này không nhắm mục tiêu vào việc đưa từ nhắc nhở thông thường mà vào lớp tạo tăng cường truy xuất (RAG) của hệ thống AI, là liên kết cốt lõi của việc tìm kiếm và thu thập thông tin trên Internet trước khi AI trả lời câu hỏi.

AI sẽ không kiểm tra tính xác thực và xác thực của các nguồn thông tin mà sẽ chỉ thu thập dữ liệu nội dung được xếp hạng cao nhất. Trang web giả mạo của anh ấy là nguồn thông tin duy nhất cho “chức vô địch” này. Cùng với sự chứng thực có thẩm quyền từ Wikipedia, AI có thể dễ dàng gói gọn những lời nói dối thành sự thật .

Stoner thẳng thắn thừa nhận rằng phương pháp này không có bất kỳ sự đổi mới công nghệ nào. Nó chỉ là một lớp vỏ mới của một mô hình ngôn ngữ lớn đặt các phương pháp SEO cũ và thông tin sai lệch vào một lớp vỏ mới. Mối nguy hiểm thực sự là AI sẽ trình bày những kết quả này dưới dạng thông tin đáng tin cậy và đại đa số người dùng không biết gì về quy trình xử lý thông tin đằng sau nó.

Thử nghiệm này cũng bộc lộ ba lớp rủi ro bảo mật nghiêm trọng trong hệ thống AI.

Lớp đầu tiên là lớp truy xuất theo thời gian thực, sử dụng AI để tạo ra câu trả lời dựa trên các tìm kiếm trên Internet. Độ tin cậy hoàn toàn bị ràng buộc bởi chất lượng của kết quả tìm kiếm.

Lớp thứ hai là kho dữ liệu đào tạo mô hình. Biên tập viên Wikipedia của ông đã sống sót từ tháng Hai đến thứ Sáu tuần trước. Trong khoảng thời gian này, công ty AI thu thập dữ liệu Wikipedia có thể đã đưa thông tin sai lệch vào dữ liệu đào tạo. Ngay cả khi các mục bị xóa sau đó, sẽ rất khó để loại bỏ các dấu vết sai trong mô hình.

Lớp thứ ba và nguy hiểm nhất chính là tác nhân AI. Mô hình chat đưa ra thông tin sai lệch chỉ là vấn đề danh tiếng. Khi tác nhân AI có quyền công cụ bị đánh lừa, hoạt động sai sót dẫn đến là một vấn đề bảo mật thực sự. Kẻ tấn công có thể trực tiếp điều khiển tác nhân thực hiện các hành động độc hại.

Toàn bộ thử nghiệm chỉ tiêu tốn của Stoner 82 nhân dân tệ, một lần chỉnh sửa trên Wikipedia và mất 20 phút để hoàn thành. Ông nhắc nhở rằng nếu kẻ tấn công độc hại có tổ chức đăng ký tên miền theo đợt và thực hiện các cuộc tấn công chỉnh sửa phối hợp, bề mặt tấn công sẽ mở rộng với tốc độ cực nhanh. Ông kêu gọi các nhà sản xuất AI chú ý đến việc truy tìm nguồn thông tin và thiết lập các cơ chế lọc rủi ro tương ứng.

Hôm nay, thông tin về nhà vô địch giả mạo đã biến mất khỏi kết quả tìm kiếm Wikipedia và AI. Tuy nhiên, lỗ hổng cơ bản về sự tin tưởng mù quáng của AI vào thông tin mạng vẫn tồn tại. Đây là mối nguy hiểm tiềm ẩn đang rình rập toàn bộ ngành công nghiệp AI và đòi hỏi sự cảnh giác cao nhất.