Các thử nghiệm đã chỉ ra rằng mặc dù nội dung tổng quan về AI được Google hiển thị theo mặc định trong kết quả tìm kiếm hầu hết luôn chính xác, nhưng với lượng tìm kiếm quy mô lớn hiện tại, ngay cả một phần nhỏ trong đó cũng sai, điều đó có nghĩa là người dùng sẽ thấy hàng chục triệu câu trả lời sai mỗi ngày.

The New York Times trích dẫn đánh giá của công ty khởi nghiệp AI Oumi rằng khoảng 1 trong 10 bài tổng quan về Google AI có chứa thông tin sai lệch. Dựa trên thực tế là Google xử lý khoảng 5 nghìn tỷ lượt tìm kiếm mỗi năm, người dùng có thể gặp hơn 57 triệu câu trả lời không chính xác mỗi giờ, nghĩa là gần "gần một triệu câu trả lời mỗi phút".

Oumi đã được The New York Times yêu cầu đánh giá định lượng độ chính xác của Gemini trong tìm kiếm của Google bằng SimpleQA, một tiêu chuẩn kiểm tra AI tổng quát được áp dụng rộng rãi. Trong số 4.326 mẫu tìm kiếm, tỷ lệ Gemini 2 cung cấp cái nhìn tổng quan về AI chính xác là khoảng 85% vào tháng 10 năm ngoái. Sau khi nâng cấp lên Gemini 3 vào tháng 2 năm nay, tỷ lệ này tăng lên 91%.

Tuy nhiên, lý do tại sao Oumi có thể được đánh giá trên cỡ mẫu lớn cũng phụ thuộc vào các công cụ AI khác, điều này có thể gây ra các lỗi mới. Đồng thời, trong sử dụng thực tế, Google đôi khi đưa ra những nội dung tổng quan về AI khác nhau cho cùng một yêu cầu tìm kiếm, thậm chí khi giữa hai lần tìm kiếm chỉ cách nhau vài giây khiến việc đánh giá trở nên khó khăn hơn.

Google tin rằng phương pháp thử nghiệm của Oumi là "thiếu sót" và không phù hợp với hành vi tìm kiếm trong thế giới thực. Theo dữ liệu thử nghiệm nội bộ của Google, khi chạy độc lập với tìm kiếm, "tỷ lệ ảo tưởng" (tỷ lệ tạo ra nội dung không chính xác) của Gemini 3 là khoảng 28%.

Báo cáo chỉ ra rằng nguồn thông tin cũng là một vấn đề lớn. Google sẽ cố gắng đưa các liên kết có liên quan vào phần tổng quan về AI, nhưng những liên kết này thường không thực sự hỗ trợ cho các kết luận do Gemini đưa ra - liệu bản thân các kết luận đó là đúng hay sai. Thử nghiệm cho thấy trong một số trường hợp, liên kết ngay sau tổng quan về AI sai đã đưa ra thông tin chính xác; trong các trường hợp khác, nội dung tổng quan là chính xác nhưng lại tham chiếu đến một trang web chứa thông tin không chính xác; và trong một số kết quả, trang được liên kết không hề có nội dung liên quan đến phần tổng quan.

Đáng chú ý hơn, sự không nhất quán giữa tổng quan về AI và các nguồn mà nó trích dẫn trở nên nổi bật hơn sau khi nâng cấp: 37% tìm kiếm gặp phải sự không nhất quán này khi sử dụng Gemini 2 và tỷ lệ này tăng lên 56% sau khi nâng cấp lên Gemini 3.

Các nhà nghiên cứu cũng nhận thấy rằng có thể dễ dàng thực hiện tổng quan về AI “bị thao túng” bởi nội dung bên ngoài. Một phóng viên BBC đã cố tình đăng thông tin sai lệch lên blog cá nhân của mình và sau đó phát hiện ra rằng Google đã lặp lại thông tin sai lệch đó trong phần tóm tắt tìm kiếm vào ngày hôm sau.

Trong bản in đẹp của điều khoản sử dụng, một số công ty công nghệ chính thống đã thực sự thừa nhận rằng nhận thức hiện tại về "tính xác thực" trong AI sáng tạo vẫn còn chưa chắc chắn. Trong các điều khoản và điều kiện của mình, Microsoft định nghĩa công cụ Copilot của mình là "chỉ dành cho mục đích giải trí" và không phù hợp để sử dụng trong việc đưa ra các quyết định quan trọng. Google rõ ràng nhắc nhở người dùng kiểm tra kỹ câu trả lời của họ trên giao diện tổng quan AI và xAI cũng công khai thừa nhận rằng mô hình của họ có khả năng tạo ra "ảo giác".