Hỏi cùng một câu hỏi 10 lần sẽ khiến ChatGPT nghi ngờ cuộc sống và mâu thuẫn với chính mình nhiều lần

Một nghiên cứu mới nhất của Đại học bang Washington, Hoa Kỳ cho thấy khi đối mặt với những khẳng định khoa học phức tạp, mô hình ngôn ngữ quy mô lớn ChatGPT thường "đoán câu trả lời" mặc dù câu trả lời của nó nghe rất tự tin. Nó không chỉ bị hạn chế về độ chính xác mà còn không nhất quán trên cùng một câu hỏi, khiến việc xác định thông tin sai lệch trở nên đặc biệt khó khăn.

Nghiên cứu được dẫn dắt bởi Mesut Cicek, phó giáo sư Khoa Tiếp thị và Kinh doanh Quốc tế tại Đại học Kinh doanh Bang Washington. Ông và nhóm của mình đã trích xuất một số lượng lớn các tuyên bố giả định từ các tài liệu nghiên cứu khoa học và liên tục gửi chúng cho ChatGPT, bằng cách yêu cầu ChatGPT đánh giá xem những tuyên bố này có được hỗ trợ bởi nghiên cứu hiện tại hay không. Về cơ bản, đó là yêu cầu AI đưa ra phán đoán về “sự thật hay giả”. Các nhà nghiên cứu đã chọn tổng cộng 719 giả thuyết nghiên cứu từ các bài báo trên tạp chí kinh doanh kể từ năm 2021 và gửi mỗi giả thuyết tới ChatGPT 10 lần để kiểm tra tính nhất quán trong các câu trả lời của nó.

Trong thử nghiệm đầu tiên vào năm 2024, ChatGPT có tỷ lệ chính xác "rõ ràng" là 76,5%; khi thí nghiệm được lặp lại vào năm 2025, con số này tăng nhẹ lên 80%. Tuy nhiên, sau khi loại bỏ yếu tố “mù” và điều chỉnh thống kê kết quả dựa trên phỏng đoán ngẫu nhiên, nhóm nghiên cứu nhận thấy hiệu suất thực tế của mô hình chỉ cao hơn khoảng 60% so với đáp án ngẫu nhiên bằng cách “tung đồng xu”, điều này không đáng tin cậy chút nào. Trong mắt các nhà nghiên cứu, nó gần với "điểm D điểm thấp". Đặc biệt trong việc xác định các tuyên bố sai, hiệu suất của ChatGPT đặc biệt yếu, với tỷ lệ phán đoán đúng chỉ 16,4% đối với “các mệnh đề sai”.

Vấn đề về tính nhất quán cũng rất nổi bật. Ngay cả khi câu hỏi được lặp lại nhiều lần với cùng một từ gợi ý, ChatGPT không phải lúc nào cũng đưa ra kết luận giống nhau. Cicek lưu ý rằng trong số 10 câu hỏi và câu trả lời lặp lại, mô hình chỉ duy trì được các câu trả lời nhất quán trong khoảng 73%. Trong một số ví dụ cụ thể, trong số 10 câu trả lời cho cùng một giả thuyết, ChatGPT sẽ xuất hiện tình huống “đổi đúng sai”, thậm chí có tình huống cực đoan là “một nửa số câu trả lời là đúng, một nửa số câu trả lời là sai”.

Nghiên cứu được công bố trên Rutgers Business Review và các tác giả tin rằng kết quả này nêu bật sự cần thiết phải hết sức thận trọng khi sử dụng AI tổng hợp trong các lĩnh vực ra quyết định quan trọng, đặc biệt là những lĩnh vực liên quan đến lý luận và sắc thái phức tạp. Cicek nhấn mạnh các mô hình ngôn ngữ quy mô lớn hiện nay có thể trả lời các câu hỏi bằng ngôn ngữ rất trôi chảy và thuyết phục, nhưng điều này không có nghĩa là chúng có “khả năng hiểu biết” thực sự. Ông nói: "Các công cụ AI hiện tại không hiểu thế giới giống như con người - chúng không có 'bộ não' thực sự. Chúng chủ yếu ghi nhớ và so khớp, điều này có thể cung cấp một số hiểu biết sâu sắc nhưng không thực sự biết chúng đang nói về cái gì."

Về phương pháp cụ thể, nhóm nghiên cứu được hoàn thành bởi Cicek với sự cộng tác của Sevincgul Ulu của Đại học Nam Illinois, Can Uslay của Đại học Rutgers và Kate Karniouchina của Đại học Đông Bắc. Họ đã lựa chọn các giả thuyết nghiên cứu từ 719 bài báo trên tạp chí kinh doanh. Những giả thuyết như vậy thường bị ảnh hưởng bởi nhiều biến số. Việc đánh giá liệu một nghiên cứu có “ủng hộ” một giả thuyết nào đó hay không bản thân nó là một quá trình suy luận rất phức tạp. Việc nén sự phức tạp này thành một phán đoán “có/không” đơn giản là một bài kiểm tra nghiêm ngặt về khả năng hiểu và suy luận của công cụ.

Điều đáng chú ý là nhóm đã thử nghiệm phiên bản ChatGPT-3.5 miễn phí vào năm 2024 và ChatGPT-5 mini cập nhật vào năm 2025. Kết quả cho thấy hiệu suất tổng thể của hai thế hệ mô hình trong nhiệm vụ này là tương tự nhau. Sau khi hiệu chỉnh hệ số đoán ngẫu nhiên, độ cải thiện của mô hình so với xác suất “đoán” 50% ở cả hai thí nghiệm chỉ đạt khoảng 60%.

Nghiên cứu còn chỉ ra rằng có một khoảng cách đáng kể giữa "sự thông thạo ngôn ngữ" và "khả năng suy luận thực sự" của các mô hình ngôn ngữ lớn. Các hệ thống này có thể tạo ra văn bản có cấu trúc tốt, ngôn từ tự nhiên và thuyết phục, nhưng chúng thường gặp khó khăn với những đánh giá logic sâu sắc hơn, cân nhắc bằng chứng và xác định thông tin sai lệch, điều này có thể dẫn đến những câu trả lời nghe có vẻ đúng nhưng thực sự lại có vấn đề.

Dựa trên những phát hiện trên, các nhà nghiên cứu khuyến nghị các nhà quản lý doanh nghiệp và người ra quyết định nên luôn xác minh kết quả đầu ra và duy trì thái độ hoài nghi cần thiết khi sử dụng các công cụ AI tổng hợp như ChatGPT. Họ cũng kêu gọi đào tạo người dùng nhiều hơn trong các tổ chức để giúp nhân viên hiểu được điểm mạnh và hạn chế của những công cụ đó và tránh xem chúng là những công cụ thay thế "có thẩm quyền" cho phán đoán chuyên môn. Cicek chỉ ra rằng mặc dù chủ đề của nghiên cứu này là ChatGPT, nhưng các hệ thống AI tương tự khác cũng hoạt động gần giống như vậy trong các thử nghiệm liên quan. Công trình này cũng tiếp tục nghiên cứu trước đây về “sự cường điệu quá mức của AI”. Ví dụ: một cuộc khảo sát quốc gia năm 2024 cho thấy rằng khi các công ty nhấn mạnh “được hỗ trợ bởi AI” trong tiếp thị, điều đó thực sự làm giảm ý định mua hàng của một số người tiêu dùng.

“Dù thế nào đi nữa, hãy hoài nghi,” Cicek nói. "Tôi không chống lại AI. Tôi tự mình sử dụng nó, nhưng bạn phải xử lý nó thật cẩn thận."