Một số lượng lớn các trang web tin tức đã chặn cỗ máy thời gian để lưu ảnh chụp nhanh của trang web. Nguyên nhân là do mô hình đào tạo đã được AI

Theo tin tức do WIRED công bố, nhiều trang web ở Hoa Kỳ đã bắt đầu chặn chức năng chụp nhanh của Wayback Machine trong Internet Archive, tức là Wayback Machine không còn được phép chụp các trang của các trang web tin tức này và lưu trữ chúng nữa. Lý do là trình thu thập thông tin AI thu thập dữ liệu để đào tạo mô hình.

Cơn sốt trí tuệ nhân tạo hiện nay đã khiến lưu lượng truy cập của một số lượng lớn trang web sụt giảm đáng kể, trong khi các công ty AI đang tìm cách vượt qua các hạn chế và thu thập dữ liệu trang web một cách bất hợp pháp và cuối cùng sử dụng dữ liệu đã thu được cho robot đối thoại AI hoặc để đào tạo các mô hình trí tuệ nhân tạo tiếp theo.

Đối với các trang web, hành vi này liên quan đến việc thu thập thông tin và sử dụng nội dung mà không được phép và sẽ khiến lưu lượng truy cập trang web giảm. Do đó, nhiều trang web đã cấm rõ ràng các trình thu thập thông tin tìm kiếm của trí tuệ nhân tạo thu thập dữ liệu trang web trong robots.txt.

Cả Internet Archive và người dùng đều vô tình bị giết:

Để bảo vệ quyền và lợi ích hợp pháp của mình, nhiều phương tiện truyền thông tin tức nổi tiếng, bao gồm USA Today, The New York Times, v.v., đã chặn cỗ máy thời gian của trang web Internet Archive. Các trang web tin tức này sẽ ia_archiverbot Bị loại trừ là các trình thu thập thông tin, là các trình thu thập thông tin được Internet Archive sử dụng.

Ngoài các phương tiện truyền thông tin tức, các diễn đàn trực tuyến như Reddit cũng cấm Internet Archive thu thập nội dung. Reddit đã ký thỏa thuận cấp phép với Google và OpenAI để cho phép các công ty này thu thập dữ liệu và sử dụng nó để đào tạo các mô hình trí tuệ nhân tạo. Ít nhất là đối với Reddit, nếu Internet Archive được phép thu thập dữ liệu và các công ty AI sau đó thu thập dữ liệu của Internet Archive, điều đó có thể ngăn họ tiếp tục bán dữ liệu.

Vấn đề là rất nhiều nội dung không tồn tại vĩnh viễn. Tầm quan trọng của cỗ máy thời gian của trang web là bạn có thể xem các thay đổi trong nội dung web và tiếp tục duyệt nội dung thông qua ảnh chụp nhanh khi trang web bị xóa, điều này rất quan trọng đối với nhiều người dùng.

Do đó, trong cơn sốt AI, các phương tiện truyền thông tin tức chặn Internet Archive thu thập dữ liệu thực chất là một hành vi ngộ sát đối với Internet Archive và người dùng: nhằm chặn các công ty AI và sau đó chặn những người dùng thường sử dụng các chức năng liên quan.

USA Today cho biết điều này không nhắm mục tiêu vào Internet Archive:

Người phát ngôn của USA Today cho biết việc chặn nội dung được Internet Archive thu thập không nhắm mục tiêu cụ thể vào Internet Archive mà là kế hoạch thông thường của công ty nhằm chặn trên diện rộng tất cả các trình thu thập dữ liệu web.

Giám đốc phụ trách thương mại và cấp phép của The Guardian cho biết công ty đang liên lạc với Internet Archive để thảo luận về khả năng các công ty trí tuệ nhân tạo lạm dụng để thu thập nội dung cho mục đích bảo quản (nhưng vẫn chưa có kết quả rõ ràng).

Đánh giá từ tình huống này, ngày càng nhiều phương tiện truyền thông có thể chặn Internet Archive trong tương lai để ngăn nội dung của họ bị các công ty AI thu thập thông tin thông qua Internet Archive. Phân tích cuối cùng, nguyên nhân sâu xa vẫn là các công ty AI này.

Không có gì lạ khi các công ty AI này thu thập dữ liệu nội dung mà không được phép và thu thập dữ liệu nội dung ở tần suất cao. Cuối cùng, điều này có thể thay đổi mô hình của Internet mở, cho phép nhiều trang web chuyển từ truy cập công khai sang truy cập đăng nhập đã đăng ký hoặc thậm chí truy cập phải trả phí.