GitHub sẽ sử dụng dữ liệu người dùng Copilot để đào tạo mô hình AI của riêng mình theo mặc định. Người dùng cá nhân cần đăng xuất theo cách thủ công

GitHub đã thông báo rằng bắt đầu từ ngày 24 tháng 4, công ty sẽ bắt đầu sử dụng dữ liệu tương tác của người dùng cá nhân Copilot Free, Pro và Pro+ trong sản phẩm theo mặc định để đào tạo và cải thiện các mô hình AI của mình, trừ khi người dùng chủ động chọn không tham gia. Copilot Business và Copilot Enterprise và các tài khoản doanh nghiệp không nằm trong phạm vi của chính sách mới này. Việc điều chỉnh “bật theo mặc định và bắt buộc phải tắt thủ công” này đã gây ra sự không hài lòng rõ ràng trong cộng đồng nhà phát triển.

GitHub tóm tắt loại dữ liệu đào tạo này là "đầu vào, đầu ra, đoạn mã và ngữ cảnh liên quan" trong mô tả chính thức, nhưng chi tiết cho thấy phạm vi thu thập còn nhiều hơn thế. Công ty cho biết nội dung bộ sưu tập cũng có thể bao gồm mã xung quanh con trỏ, nhận xét và tài liệu, tên tệp, cấu trúc kho mã, đường dẫn điều hướng giao diện người dùng, bản ghi hội thoại với chức năng Copilot và các thao tác phản hồi như nhấp chuột để đồng ý hoặc không đồng ý với các kết quả được đề xuất.

GitHub cho biết các thử nghiệm trước đây về dữ liệu nhân viên nội bộ của Microsoft cho thấy rằng sau khi đào tạo dựa trên dữ liệu tương tác, "tỷ lệ chấp nhận đề xuất" của Copilot trong nhiều ngôn ngữ lập trình đã có "sự cải thiện đáng kể", vì vậy họ hy vọng sẽ mở rộng phương pháp này cho tất cả người dùng trả tiền.

Về quyền riêng tư, GitHub nhấn mạnh rằng họ vẫn sẽ không sử dụng nội dung của kho mã riêng "được lưu trữ tĩnh" làm dữ liệu đào tạo. Nói cách khác, mã được lưu trữ đơn giản trên GitHub nhưng chưa được gọi trong Copilot vẫn nằm ngoài phạm vi đào tạo. Tuy nhiên, sau khi nhà phát triển kích hoạt và sử dụng Copilot trong kho lưu trữ riêng tư, các từ nhắc nhở trong phiên, đoạn mã đề xuất do AI tạo và ngữ cảnh xung quanh chúng vẫn có thể được thu thập để đào tạo trừ khi người dùng tắt cài đặt liên quan. Từ định nghĩa kỹ thuật, điều này không giống như đào tạo trực tiếp với toàn bộ mã thư viện, nhưng đối với nhiều nhà phát triển, sự khác biệt này có thể không mang lại cảm giác an toàn.

Đối với người dùng cá nhân muốn từ chối sử dụng dữ liệu để đào tạo AI, đường dẫn do GitHub đưa ra là: vào trang cài đặt Copilot và trong các tùy chọn liên quan đến "Quyền riêng tư", đặt "Cho phép GitHub sử dụng dữ liệu của tôi để đào tạo mô hình AI" thành "Đã tắt". Quan chức này cũng cho biết rằng những người dùng trước đây đã chọn "từ chối sử dụng để cải tiến sản phẩm" trong việc thu thập dữ liệu sẽ được giữ nguyên các tùy chọn ban đầu và sẽ không tự động được thêm vào kế hoạch đào tạo mới vào tháng tới.

Theo hướng dẫn của GitHub, dữ liệu được chia sẻ theo chính sách mới có thể được các công ty liên kết, bao gồm cả Microsoft sử dụng, nhưng sẽ không được mở cho các nhà cung cấp mô hình AI bên thứ ba cho mục đích đào tạo độc lập của họ.

Ở cấp độ cộng đồng, bản cập nhật này, đặc biệt là thiết kế “đồng ý mặc định, thoát chủ động”, đã gây ra nhiều phản hồi tiêu cực. Một bài đăng trên cộng đồng GitHub thông báo về thay đổi này đã nhận được hơn một trăm lượt "không thích" và nhiều bình luận chỉ trích, tập trung vào các vấn đề như rủi ro về quyền riêng tư, tính hợp lý của ủy quyền mặc định và tác động đến mối quan hệ tin cậy của nhà phát triển.