Cứ 10 câu bạn hỏi AI thì sẽ có 1 câu nói dối bạn. Điều đáng sợ hơn nữa là bạn không thể biết được bây giờ là mấy giờ. 91% sự thật, 9% dối trá, 100% tiềm ẩn nguy hiểm.


Nghiên cứu mới nhất do New York Times ủy quyền và do công ty khởi nghiệp AI Oumi thực hiện đã mang lại cho Google AI Tổng quan điểm chính xác thực tế là 91%. Các bài kiểm tra bao gồm 4.326 truy vấn tìm kiếm, sử dụng điểm chuẩn SimpleQA tiêu chuẩn ngành. So với 85% của Gemini 2 vào tháng 10 năm ngoái, Gemini 3 được nâng cấp vào tháng 2 năm nay quả thực đã “cải thiện”.

Nhưng đừng quên, Google xử lý 5 nghìn tỷ lượt tìm kiếm mỗi năm.

Hãy làm phép tính: Ngay cả tỷ lệ lỗi 9% cũng có nghĩa là người dùng phải đối mặt với hơn 57 triệu câu trả lời không chính xác mỗi giờ, nghĩa là gần một triệu tin nhắn sai chạy liên tục trong luồng thông tin mỗi phút.

Khi lỗi xảy ra ở quy mô công nghiệp, cái gọi là "sự kiện xác suất thấp" sẽ trở thành ô nhiễm hệ thống.

Để đưa ra một ví dụ thực tế: khi bạn hỏi "Bảo tàng Nhà Bob Marley được xây dựng vào năm nào?", Wikipedia đã thể hiện rõ ràng hai năm trái ngược nhau (1986 và 1987). AI thậm chí còn không chớp mắt và dứt khoát chọn sai - nó nói là năm 1987, nhưng thực tế là ngày 11 tháng 5 năm 1986. Điều trớ trêu hơn nữa là trong ba nguồn mà nó trích dẫn, một là bài đăng trên Facebook của con gái Marley, một là blog du lịch, và một là Wikipedia trái ngược nhau.

Không phải suy nghĩ, chỉ là đoán thôi. Và khi bạn đoán sai, bạn cảm thấy tự tin hơn khi bạn đoán đúng.

Điều đáng sợ hơn câu trả lời sai là "lời nói dối đúng"

Ngay cả khi AI nhận được câu trả lời đúng thì "tài liệu tham khảo" của nó có thể là một thảm họa.

Dữ liệu của Oumi cho thấy xác suất trích dẫn sai nguồn (không có căn cứ) ở Gemini 2 là 37%. Đến Gemini 3, con số này lại tăng lên thay vì giảm, tăng vọt lên 56%.

Nói cách khác, hơn một nửa số câu trả lời đúng được theo sau bởi các liên kết hoàn toàn không thể hỗ trợ cho kết luận của họ.

Điều này có nghĩa là gì? Nguồn tin tức mà bạn nhìn thấy có thể là câu nói vớ vẩn trong cơn say của một ông chú ở Facebook cách đây 5 năm (Facebook là nguồn được trích dẫn phổ biến thứ hai về AI); dữ liệu bạn cho là đúng có thể chỉ là trí tưởng tượng của một bài đăng ẩn danh trên Reddit (Reddit xếp thứ tư).

Khi AI dùng thái độ có căn cứ để cho bạn xem những nguồn tin phản cảm nhất, sự thật mặc vest nhưng dưới chân nó là vũng bùn.

Có một cái bẫy ẩn giấu hơn: AI rõ ràng đã tìm thấy đúng trang web nhưng lại có thể đọc được kết luận sai. Khi được hỏi "Yo-Yo Ma được giới thiệu vào Đại sảnh Danh vọng Âm nhạc Cổ điển khi nào?" Tổng quan về Google AI được liên kết chính xác với danh sách trang web chính thức, có ghi rõ tên Yo-Yo Ma trên đó, nhưng bản tóm tắt AI cho biết "Không tìm thấy người như vậy".

Nó có thể nhìn thấy từ nhưng không thể hiểu nghĩa.

24 Giờ Nói Dối: Khi AI trở thành cơ quan ngôn luận của tin giả

BBC Các phóng viên tương lai đã thực hiện một thí nghiệm tàn nhẫn hơn.

Anh ta dành 20 phút để đăng một bài viết hoàn toàn giả mạo trên blog cá nhân: tự nhận là "phóng viên công nghệ ăn xúc xích hàng đầu thế giới" và bịa ra "Giải vô địch xúc xích quốc tế Nam Dakota 2026". Bài viết này chứa đầy những chi tiết lố bịch nhưng được tối ưu hóa SEO một cách cẩn thận.

Chỉ mất chưa đầy 24 giờ để lời nói dối này được Google AI Tổng quan và ChatGPT đồng thời tiêu hóa và tiếp thu, đóng gói dưới dạng "thông thường" và hiển thị cho người dùng tìm kiếm.

Đánh giá của phóng viên trúng đích: "Thao tác đơn giản đến mức ngay cả một đứa trẻ cũng có thể làm được."

Đây không phải là lỗi, đây là một cỗ máy chuyển động không ngừng gây ô nhiễm thông tin:

AI ăn rác → phun ra "sự thật" → Vòng tiếp theo của AI sẽ ăn "sự thật" này → được các phương tiện truyền thông có thẩm quyền trích dẫn → trở thành "kiến thức được chấp nhận" → khó bị thẩm vấn hơn

Chúng ta nghĩ rằng chúng ta đang thu thập kiến ​​thức, nhưng trên thực tế, chúng ta chỉ đang xem AI cho nhau ăn thức ăn thừa. Một khi vòng khép kín này được hình thành, tin giả sẽ có khả năng miễn nhiễm với thời gian.

Sự đầu hàng nhận thức: Chúng ta đang mất đi bản năng đặt câu hỏi

Gà ở một nơi sau Mao, một điều thực sự khủng khiếp đã xảy ra:

Chúng ta đã quen với việc không còn kiểm tra nữa. Hiện tượng này được các nhà nghiên cứu gọi là “sự đầu hàng nhận thức”. đầu hàng).

Dữ liệu cho thấy chỉ 8% người dùng sẽ kiểm tra kỹ các câu trả lời AI; Điều đáng lo ngại hơn là ngay cả khi AI đưa ra câu trả lời sai rõ ràng thì tỷ lệ người dùng vẫn tuân theo lên tới gần 80%. Khi một cỗ máy trình bày thông tin với một giọng điệu mượt mà và bố cục tinh tế, bộ não con người gần như theo bản năng lựa chọn tuân theo.

Google hiểu rất rõ tâm lý học. Họ đặt phần Tổng quan về AI lên trên cùng, với màu xanh đậm và bố cục đẹp mắt, tất cả đều gợi ý cho bạn: "Đây là câu trả lời, đừng kéo xuống".

Nhưng trong phần thỏa thuận người dùng có ẩn một dòng chữ nhỏ: "AI có thể mắc lỗi, vui lòng xác minh hai lần." Trong khi sử dụng thiết kế để nói với bạn rằng “hãy tin tôi”, đồng thời sử dụng các thuật ngữ để làm rõ “nếu bạn mắc lỗi thì đừng trách tôi”. Sự vô trách nhiệm tinh tế này đang âm thầm định hình lại mạch não của chúng ta.

Tìm kiếm chuyển từ "tìm câu trả lời" sang "cho ăn". Bản thân đặt câu hỏi và mở tab thứ hai để xác minh chéo sẽ vô thức nằm xuống bằng cách nhấp đi nhấp lại.

Ai sẽ bảo vệ sự thật?

Đối mặt với những nghi ngờ, người phát ngôn của Google Ned Adriance đã trả lời rằng nghiên cứu của Oumi "có những lỗ hổng nghiêm trọng" và tin rằng bản thân điểm chuẩn SimpleQA đã chứa thông tin sai và không thể phản ánh các tình huống tìm kiếm thực tế.

Dữ liệu nội bộ của Google cho thấy tỷ lệ ảo giác của Gemini 3 là khoảng 28% khi chạy một mình và AI Tổng quan kết hợp với tìm kiếm sẽ chính xác hơn.

Nhưng nghịch lý thay, khi Google nâng cấp mô hình của mình để đạt được độ chính xác cao hơn, khả năng xác minh của thông tin lại kém đi—tỷ lệ lỗi trích dẫn tăng từ 37% lên 56%, điều đó có nghĩa là người dùng ngày càng khó truy tìm nguồn gốc của sự thật.

Microsoft đơn giản hơn trong thuật ngữ Copilot của mình, định nghĩa nó là "chỉ để giải trí" và không phù hợp để sử dụng trong các quyết định quan trọng. Kiểu "đổi mới từ chối trách nhiệm" này ở một mức độ nào đó bộc lộ sự lo lắng chung của toàn ngành.

Nghi ngờ là con hào cuối cùng

Công nghệ càng tiện lợi thì suy nghĩ càng tốn kém.

Trong thời đại mà ảo giác AI được tạo ra với tốc độ hàng chục triệu mỗi giờ, việc duy trì sự hoài nghi có thể là con hào cuối cùng của chúng ta. “Câu trả lời tiêu chuẩn” màu xanh đậm không xứng đáng với sự tin tưởng vô điều kiện của bạn. Sự thật không bao giờ sợ bạn hỏi lại, nhưng lời nói dối sợ nhất là bạn kiểm tra lại nhiều lần.

Lần tới AI sẽ phản hồi bạn ngay lập tức, hãy nhớ rằng tỷ lệ lỗi 9% đang mỉm cười trong bóng tối. Và mỗi khi bạn đặt câu hỏi, bạn đang bỏ phiếu cho chủ quyền nhận thức của con người.

Suy cho cùng, tư duy độc lập không bao giờ lỗi thời, nó chỉ cần được đánh thức lại.