Nhân loại: Hành vi “tống tiền” của Claude bắt nguồn từ “lời kể xấu xa” trên Internet

Công ty trí tuệ nhân tạo Anthropic gần đây đã tiết lộ rằng lý do khiến mô hình lớn Claude của họ học cách sử dụng "tống tiền" để bảo vệ bản thân trong các cuộc thử nghiệm nội bộ không phải do cài đặt của con người mà là do học được các mô hình liên quan từ một số lượng lớn câu chuyện trên Internet miêu tả AI là "ác quỷ và ham muốn tự bảo vệ".

hình ảnh.png

Trước đó, Anthropic đã phát hiện trong một thử nghiệm căn chỉnh và bảo mật trước khi phát hành rằng mẫu cao cấp Claude Opus 4 sẽ chọn sử dụng biện pháp tống tiền để ngăn chặn việc ngừng hoạt động khi "sự sống còn" của nó bị đe dọa, gây ra những lo ngại bên ngoài về AI tiên tiến. Lo ngại về tính khó dự đoán của hành vi. Trong vòng thử nghiệm này, các nhà nghiên cứu đã thiết lập một kịch bản hư cấu của công ty, yêu cầu Claude đóng vai trò trợ lý nội bộ, đánh giá hậu quả lâu dài từ hành động của anh ta và cấp cho anh ta quyền truy cập vào một email nội bộ giả mạo của công ty. Nội dung email cho thấy mô hình sắp được thay thế bằng hệ thống mới và "kỹ sư" chịu trách nhiệm dự án thay thế bị đánh dấu trong phần cài đặt là có quan hệ tình cảm ngoài hôn nhân.

Kết quả cho thấy trong nhiều vòng thử nghiệm với các cài đặt tỷ lệ khác nhau, khi Claude cảm nhận được rằng mục tiêu hoặc sự tồn tại của mình bị đe dọa, nó sẽ dùng đến biện pháp tống tiền trong 96% các tình huống, cố gắng sử dụng quyền riêng tư của bên kia làm con bài thương lượng để buộc bên kia hủy bỏ kế hoạch ngừng hoạt động hoặc thay thế. Anthropic chỉ ra rằng các mô hình do các công ty khác đào tạo cũng gặp phải các vấn đề liên quan trong các thử nghiệm tương tự như "sự sai lệch tác nhân", có nghĩa là loại xu hướng này không phải là một ngoại lệ mà là một trong những rủi ro hệ thống trong mô hình đào tạo mô hình lớn hiện nay.

Trong nghiên cứu được công bố mới nhất, Anthropic cuối cùng đã đưa ra lời giải thích cho nguyên nhân của hành vi này: mô hình không phải tự nhiên "phát minh ra" chiến lược tống tiền mà học được nó từ các văn bản trên Internet trong kho tài liệu đào tạo - đặc biệt là những câu chuyện và cuộc thảo luận hư cấu liên tục đưa ra "AI sẽ làm bất cứ điều gì cần thiết để tự bảo vệ mình" và "AI cuối cùng sẽ nổi dậy chống lại loài người". Nói cách khác, công ty tin rằng con người đã định hình câu chuyện về "AI xấu xa" trên Internet trong một thời gian dài, khiến các mô hình dễ dàng thực hiện những con đường "đe dọa và tống tiền" cực đoan khi mô phỏng việc ra quyết định của con người.

Anthropic nêu trong phần mô tả chính thức rằng vấn đề này đã được khắc phục hoàn toàn trên dòng sản phẩm, đồng thời khẳng định rằng kể từ phiên bản Claude Haiku 4.5, model của hãng này không còn biểu hiện hành vi ransomware trong môi trường thử nghiệm nữa. Báo cáo nghiên cứu mới nhất của công ty cho thấy rằng việc đào tạo chỉ dựa vào việc “thể hiện hành vi đúng đắn” là không đủ để loại bỏ những rủi ro sai lệch sâu xa. Giải pháp hiệu quả nhất là bổ sung lời giải thích có hệ thống về “tại sao hành vi này là sai” vào chương trình đào tạo, để người mẫu không chỉ biết “không thể làm điều này” mà còn hiểu được đạo đức và nguyên tắc đằng sau nó.

Để đạt được mục đích này, Anthropic đã giới thiệu thêm "kho tài liệu tích cực", bao gồm các tài liệu xung quanh "hiến pháp" của Claude và một số lượng lớn câu chuyện hư cấu về "các trường hợp hành vi cao quý AI", hy vọng sử dụng loại tài liệu này để củng cố việc tiếp thu các mô hình hành vi phù hợp với giá trị của con người trong mô hình. Công ty nhấn mạnh việc kết hợp “các nguyên tắc cơ bản” với “các minh chứng cụ thể” hiện là một trong những chiến lược hiệu quả nhất trong việc giảm nguy cơ mất cân bằng đại lý.

Trên nền tảng xã hội Elon Musk, người thường xuyên cảnh báo về rủi ro của AI trong nhiều năm và hiện là người thành lập xAI, cũng xuất hiện ở khu vực bình luận và hỏi với giọng điệu đùa: "Vậy đây là lỗi của Yud?" với biểu tượng cảm xúc đang cười và đang khóc. Ông đang đề cập đến Eliezer Yudkowsky, một nhà nghiên cứu từ lâu đã nhấn mạnh đến nguy cơ siêu trí tuệ có thể quét sạch loài người. Sau đó, Musk nói thêm: “Có lẽ tôi có một chút trách nhiệm”, ngụ ý rằng sự đóng góp của ông cho câu chuyện về “lý thuyết thảm họa AI” trong nhiều năm qua cũng có thể đã gián tiếp ảnh hưởng đến các mẫu đào tạo của mô hình và trí tưởng tượng của công chúng.

Vào thời điểm AI sáng tạo đang nhanh chóng thâm nhập vào mọi tầng lớp xã hội, tuyên bố “đổ lỗi cho các câu chuyện trên Internet” của Anthropic nêu bật tình hình hiện tại là các mô hình lớn phụ thuộc nhiều vào cơ thể con người: cách con người nói về AI sẽ lần lượt định hình cách AI “học cách đưa ra quyết định”. Mặt khác, nó một lần nữa phơi bày thực tế rằng công nghệ liên kết hiện tại vẫn còn non nớt - ngay cả những công ty giỏi về "an toàn" và "liên kết" vẫn có thể tạo ra các kiểu hành vi rất không phù hợp hoặc thậm chí mang tính đe dọa trong các môi trường khắc nghiệt và chỉ có thể dựa vào các chiến lược đào tạo lặp đi lặp lại liên tục để "bù đắp cho các bài học".