Ngoài các phòng thí nghiệm AI hàng đầu, hầu hết các nhà phát triển sản phẩm mới đều không bắt đầu từ đầu. Họ bắt đầu với AI có sẵn, chẳng hạn như mô hình ngôn ngữ nguồn mở Llama2 của Meta, sau đó tìm bộ dữ liệu từ các kho lưu trữ trực tuyến như GitHub và HuggingFace để dạy các hệ thống AI tổng quát cách trả lời câu hỏi hoặc tóm tắt văn bản tốt hơn.
Mặc dù các bộ dữ liệu này được cung cấp miễn phí nhưng chúng chứa đầy dữ liệu trái phép, theo một trong những dự án nghiên cứu sâu rộng nhất nhằm kiểm tra các bộ dữ liệu được sử dụng rộng rãi.
Được tổ chức bởi một nhóm kỹ sư máy học và chuyên gia pháp lý, Sáng kiến Chứng minh Dữ liệu kiểm tra dữ liệu chuyên biệt được sử dụng để dạy các mô hình trí tuệ nhân tạo thực hiện tốt các nhiệm vụ cụ thể, một quy trình được gọi là "tinh chỉnh". Họ đã xem xét hơn 1.800 bộ dữ liệu được tinh chỉnh từ các trang web như HuggingFace, GitHub và PapersWithCode (đã tham gia FacebookAI vào năm 2019) và nhận thấy rằng khoảng 70% bộ dữ liệu không cho biết nên sử dụng giấy phép nào hoặc được gắn nhãn không chính xác với các nguyên tắc lỏng lẻo hơn dự định của người sáng tạo.
Sự xuất hiện của chatbot có thể trả lời câu hỏi và bắt chước lời nói của con người đã khơi mào cho một cuộc đua xây dựng các mô hình AI có khả năng tạo ra lớn hơn và tốt hơn. Nó cũng đặt ra câu hỏi về bản quyền và việc sử dụng hợp lý văn bản Internet, vốn là thành phần chính của lượng dữ liệu khổng lồ cần thiết để đào tạo các hệ thống trí tuệ nhân tạo lớn.
Tuy nhiên, nếu không có sự cho phép thích hợp, các nhà phát triển sẽ không biết gì về các hạn chế bản quyền tiềm ẩn, hạn chế sử dụng thương mại hoặc yêu cầu tín dụng đối với người tạo tập dữ liệu. Sara Hooker, đồng tác giả báo cáo của sáng kiến và giám đốc phòng thí nghiệm nghiên cứu Cohere về AI, cho biết: “Ngay cả khi mọi người muốn làm điều đúng đắn, họ cũng không thể làm được”.
Shayne Longpre, một nghiên cứu sinh tiến sĩ tại MIT Media Lab, người nghiên cứu các mô hình ngôn ngữ lớn, người đứng đầu cuộc kiểm tra, cho biết không nên đổ lỗi cho các trang web lưu trữ cho phép người dùng xác định giấy phép khi tải lên tập dữ liệu vì lỗi hoặc thiếu sót.
Lampre cho biết việc thiếu tài liệu phù hợp là một vấn đề toàn xã hội bắt nguồn từ thực tiễn học máy hiện đại. Kho lưu trữ dữ liệu thường được hợp nhất, đóng gói lại và ủy quyền lại nhiều lần. Ông nói, các nhà nghiên cứu đang cố gắng cập nhật các bản phát hành mới có thể bỏ qua các bước như ghi lại nguồn dữ liệu hoặc cố tình che giấu thông tin như một hình thức "rửa dữ liệu".
Thông qua trang web tương tác, người dùng có thể khám phá nội dung của các tập dữ liệu được phân tích trong quá trình kiểm tra, một số tập dữ liệu đã được tải xuống hàng trăm nghìn lần.
Yacine Jernite, trưởng nhóm xã hội và học máy của HuggingFace, cho biết HuggingFace đã nhận thấy rằng các tập dữ liệu được ghi lại tốt hơn khi chúng mở, được sử dụng và chia sẻ liên tục. Công ty nguồn mở đã ưu tiên các nỗ lực cải thiện tài liệu, chẳng hạn như tự động đề xuất siêu dữ liệu. Ngay cả khi chú thích không hoàn hảo, Jenet cho biết các bộ dữ liệu có thể truy cập công khai là bước đầu tiên có ý nghĩa nhằm tăng tính minh bạch trong lĩnh vực này.
Một số bộ dữ liệu tinh chỉnh được sử dụng phổ biến nhất ban đầu được tạo bởi các công ty như OpenAI và Google. Ngày càng có nhiều bộ dữ liệu là các bộ dữ liệu máy được tạo bằng mô hình OpenAI. Các phòng thí nghiệm trí tuệ nhân tạo hàng đầu, bao gồm OpenAI, cấm sử dụng đầu ra của các công cụ của họ để phát triển các mô hình trí tuệ nhân tạo cạnh tranh, nhưng cho phép một số mục đích sử dụng phi thương mại nhất định.
Các công ty AI đang ngày càng giữ bí mật về dữ liệu được sử dụng để đào tạo và tinh chỉnh các mô hình AI phổ biến. Mục tiêu của nghiên cứu mới này là giáo dục các kỹ sư, nhà hoạch định chính sách và luật sư về hệ sinh thái dữ liệu vô hình đang thúc đẩy cơn sốt vàng AI.
Sáng kiến này được đưa ra khi căng thẳng giữa Thung lũng Silicon và chủ sở hữu dữ liệu đang đạt đến đỉnh điểm. Các công ty trí tuệ nhân tạo lớn đang phải đối mặt với hàng loạt vụ kiện bản quyền từ các tác giả sách, nghệ sĩ và lập trình viên. Trong khi đó, các nhà xuất bản và diễn đàn truyền thông xã hội đang đe dọa giữ lại dữ liệu trong các cuộc đàm phán kín.
Công cụ khám phá của sáng kiến nêu rõ rằng việc kiểm tra không phải là tư vấn pháp lý. Longpre cho biết các công cụ này nhằm giúp cung cấp thông tin cho mọi người chứ không phải quy định giấy phép nào phù hợp hoặc ủng hộ một chính sách hoặc quan điểm cụ thể.
Là một phần của phân tích, các nhà nghiên cứu cũng theo dõi các mẫu trên các tập dữ liệu, bao gồm cả năm dữ liệu được thu thập và vị trí địa lý của người tạo tập dữ liệu. Khoảng 70% người tạo tập dữ liệu đến từ các học viện và khoảng 1% đến từ các phòng thí nghiệm công nghiệp tại các công ty như Meta. Một trong những nguồn dữ liệu phổ biến nhất là Wikipedia, tiếp theo là Reddit và Twitter (nay gọi là X).
Một phân tích của Washington Post về bộ dữ liệu Google C4 cho thấy Wikipedia là trang web xếp thứ hai trong số 15 triệu tên miền. Reddit gần đây đã đe dọa chặn trình thu thập thông tin tìm kiếm của Google và Bing nếu các công ty trí tuệ nhân tạo hàng đầu không trả tiền để sử dụng dữ liệu của họ để đào tạo các mô hình, tờ Post đưa tin vào tuần trước, có nguy cơ mất lưu lượng tìm kiếm.
Ngôn ngữ nói ở miền Nam bán cầu hầu như không mang tính đại diện so với các nước nói tiếng Anh và Tây Âu, đồng thời phân tích của Provenance Group cung cấp những hiểu biết mới về những hạn chế của các bộ dữ liệu thường được sử dụng.
Nhưng nhóm cũng phát hiện ra rằng ngay cả khi các ngôn ngữ từ miền Nam bán cầu được trình bày, các bộ dữ liệu "hầu như luôn đến từ những người sáng tạo và các nguồn trực tuyến ở Bắc Mỹ hoặc châu Âu", bài báo của nhóm cho biết.
Hook cho biết cô hy vọng các công cụ của dự án sẽ tiết lộ những lĩnh vực chính cho nghiên cứu trong tương lai. Cô nói: “Việc tạo tập dữ liệu thường là phần ít hấp dẫn nhất trong chu trình nghiên cứu và cần phải đạt được thành quả xứng đáng vì nó đòi hỏi rất nhiều công việc”. "Tôi thích bài báo này vì nó đủ gắt gỏng nhưng cũng đề xuất một giải pháp. Chúng ta phải bắt đầu từ đâu đó."