Một trong nhiều mối lo ngại về AI tổng hợp là khả năng tạo hình ảnh bằng cách sử dụng hình ảnh được lấy từ Internet mà không có sự cho phép của người tạo ban đầu. Nhưng một công cụ mới có thể giải quyết vấn đề này bằng cách "đầu độc" dữ liệu dùng để huấn luyện mô hình.

Tạp chí Công nghệ MIT nêu bật một công cụ mới có tên Nightshade do các nhà nghiên cứu tại Đại học Chicago tạo ra. Nó hoạt động bằng cách thực hiện những thay đổi rất nhỏ đối với pixel hình ảnh mà mắt thường không nhìn thấy được trước khi tải chúng lên. Điều này làm ảnh hưởng đến dữ liệu huấn luyện được sử dụng bởi các công cụ như DALL-E, StableDiffusion và Midjourney, khiến mô hình gặp sự cố theo những cách không thể đoán trước.

Một số ví dụ về cách AI sáng tạo có thể diễn giải không chính xác hình ảnh của những người bị đầu độc bởi bóng đêm bao gồm biến chó thành mèo, ô tô thành bò, mũ thành bánh và túi xách thành lò nướng bánh. Nó cũng tuyệt vời để gợi ý các phong cách nghệ thuật khác nhau: chủ nghĩa lập thể trở thành anime, phim hoạt hình trở thành chủ nghĩa ấn tượng, nghệ thuật khái niệm trở thành trừu tượng.

Một bài báo gần đây được xuất bản trên arXiv của các nhà nghiên cứu mô tả Nightshade là một cuộc tấn công đầu độc theo gợi ý cụ thể. Thay vì đầu độc hàng triệu hình ảnh, Nightshade có thể phá hủy các tín hiệu khuếch tán ổn định với khoảng 50 mẫu, như minh họa trong hình bên dưới. Các nhà nghiên cứu viết rằng

Công cụ này không chỉ có thể đầu độc các thuật ngữ gợi ý cụ thể như “chó” mà còn có thể “xâm nhập” các khái niệm liên quan như “cún con”, “chó săn” và “khàn khàn”. Nó thậm chí còn ảnh hưởng gián tiếp đến những hình ảnh liên quan; ví dụ: đầu độc "Nghệ thuật tưởng tượng" sẽ biến lời nhắc về "một con rồng", "lâu đài trong Chúa tể những chiếc nhẫn" và "bức tranh của Michael Whelan" thành một thứ gì đó khác.

Ben Zhao, giáo sư tại Đại học Chicago, người đứng đầu nhóm sáng tạo Nightshade, cho biết ông hy vọng công cụ này có thể đóng vai trò ngăn chặn các công ty trí tuệ nhân tạo không tôn trọng bản quyền và quyền sở hữu trí tuệ của nghệ sĩ. Ông thừa nhận khả năng sử dụng có mục đích xấu, nhưng để gây thiệt hại thực sự cho các mô hình lớn hơn, mạnh hơn, những kẻ tấn công sẽ cần phải đầu độc hàng nghìn hình ảnh vì các hệ thống này được huấn luyện trên hàng tỷ mẫu dữ liệu.

Người huấn luyện mô hình AI sáng tạo cũng có thể sử dụng các biện pháp phòng vệ chống lại hoạt động này, chẳng hạn như lọc dữ liệu có mức tổn thất cao, phân tích tần số và các phương pháp phát hiện/loại bỏ khác, nhưng Ben Zhao cho biết chúng không mạnh mẽ lắm.

Một số công ty AI lớn cho phép các nghệ sĩ chọn không sử dụng tác phẩm của họ trong bộ dữ liệu đào tạo AI, nhưng đây có thể là một quá trình khó khăn và không giải quyết được bất kỳ tác phẩm nào có thể đã bị loại bỏ. Nhiều người tin rằng các nghệ sĩ có thể chọn tham gia thay vì phải chọn không tham gia.