Các nhà nghiên cứu trí tuệ nhân tạo của Microsoft đã vô tình làm lộ hàng chục terabyte dữ liệu nhạy cảm, bao gồm cả khóa riêng tư và mật khẩu, khi họ phát hành nhóm dữ liệu đào tạo nguồn mở trên GitHub. Trong một ghi chú nghiên cứu được chia sẻ với TechCrunch, công ty khởi nghiệp bảo mật đám mây Wiz cho biết họ đã phát hiện ra kho lưu trữ GitHub thuộc đơn vị nghiên cứu trí tuệ nhân tạo của Microsoft như một phần trong công việc đang diễn ra về việc vô tình làm lộ dữ liệu được lưu trữ trên đám mây.

Kho lưu trữ GitHub này cung cấp mã nguồn mở và các mô hình trí tuệ nhân tạo để nhận dạng hình ảnh, đồng thời hướng dẫn người đọc tải xuống mô hình từ một URL trong Azure Storage. Tuy nhiên, Wiz phát hiện ra rằng URL đã được định cấu hình để cấp quyền cho toàn bộ tài khoản lưu trữ, do đó làm lộ nhầm nhiều dữ liệu riêng tư hơn.

Dữ liệu bao gồm 38TB thông tin nhạy cảm, bao gồm cả bản sao lưu cá nhân trên PC của hai nhân viên Microsoft. Dữ liệu này cũng chứa dữ liệu cá nhân nhạy cảm khác, bao gồm mật khẩu và khóa cho các dịch vụ của Microsoft cũng như hơn 30.000 tin nhắn Microsoft Teams nội bộ từ hàng trăm nhân viên Microsoft.

Theo Wiz, URL tiết lộ dữ liệu này từ năm 2020 cũng được định cấu hình không chính xác để cho phép quyền "Kiểm soát hoàn toàn" thay vì quyền "Chỉ đọc", nghĩa là bất kỳ ai biết nơi cần tìm đều có thể xóa, thay thế và tiêm nội dung độc hại.

Wiz đã chỉ ra rằng tài khoản lưu trữ không bị lộ trực tiếp. Thay vào đó, các nhà phát triển Microsoft AI đã đưa mã thông báo Chữ ký truy cập chia sẻ (SAS) được cấp phép quá mức vào URL. Mã thông báo SAS là một cơ chế được Azure sử dụng để cho phép người dùng tạo các liên kết có thể chia sẻ để cấp quyền truy cập vào dữ liệu tài khoản lưu trữ Azure.

Người đồng sáng lập Wiz và CTO Ami Luttwak cho biết: "Trí tuệ nhân tạo đã mở ra tiềm năng to lớn cho các công ty công nghệ. Tuy nhiên, khi các nhà khoa học và kỹ sư dữ liệu chạy đua để đưa các giải pháp AI mới vào sản xuất, lượng dữ liệu khổng lồ mà họ xử lý đòi hỏi phải có các biện pháp kiểm tra bảo mật và bảo vệ bổ sung. Với nhiều nhóm phát triển xử lý lượng dữ liệu khổng lồ, chia sẻ dữ liệu với các đồng nghiệp hoặc cộng tác trong các dự án nguồn mở công cộng, các trường hợp như của Microsoft ngày càng khó theo dõi." và tránh. "

Wiz cho biết họ đã chia sẻ phát hiện của mình với Microsoft vào ngày 22 tháng 6 và Microsoft đã thu hồi mã thông báo SAS hai ngày sau đó vào ngày 24 tháng 6. Microsoft cho biết họ đã hoàn tất cuộc điều tra về tác động tiềm ẩn của tổ chức vào ngày 16 tháng 8.

"Không có dữ liệu khách hàng nào bị lộ và không có dịch vụ nội bộ nào khác gặp rủi ro do sự cố này". cho biết trong một bài đăng trên blog được chia sẻ trước khi xuất bản.

Microsoft cho biết dựa trên phát hiện của Wiz, họ đã mở rộng dịch vụ quét bí mật của GitHub, dịch vụ này giám sát các thay đổi đối với tất cả mã nguồn mở công khai để hiển thị văn bản rõ ràng về thông tin xác thực và các bí mật khác, bao gồm mọi mã thông báo SAS có thể hết hạn hoặc cấp quyền quá mức.