Kế hoạch Lầu Năm Góc cho phép các công ty AI đào tạo mô hình trên dữ liệu đã phân loại

Theo Tạp chí Công nghệ MIT, Bộ Quốc phòng Hoa Kỳ đang lên kế hoạch cho một sự thay đổi lớn: xây dựng một môi trường đào tạo có tính bảo mật cao cho các công ty trí tuệ nhân tạo sáng tạo để họ có thể đào tạo các phiên bản quân sự của các mô hình lớn trên dữ liệu tình báo quân sự bí mật. Điều này có nghĩa là các mô hình ban đầu chỉ “đọc” và “trả lời câu hỏi” trong môi trường bí mật có thể trực tiếp sử dụng dữ liệu bí mật làm tài liệu đào tạo trong tương lai, từ đó “ghi” thông tin nhạy cảm vào chính mô hình đó.

Hiện tại, một số mô hình AI tổng quát (như Claude của Anthropic) đã được triển khai trong môi trường mật để trả lời các câu hỏi và hỗ trợ phân tích, bao gồm cả việc tham gia phân tích các mục tiêu của Iran. Tuy nhiên, các mô hình này hiện chỉ xử lý thông tin bí mật dựa trên khả năng hiện có và sẽ không sử dụng lại dữ liệu để tự đào tạo và cập nhật các mô hình. Nếu được phép đào tạo về dữ liệu mật, mô hình này dự kiến sẽ chính xác và hiệu quả hơn trong việc thực hiện các nhiệm vụ quân sự cụ thể, nhưng nó cũng sẽ gây ra những rủi ro an ninh chưa từng có.

Một quan chức quốc phòng giấu tên của Hoa Kỳ cho biết rằng việc huấn luyện mô hình tùy chỉnh của quân đội về dữ liệu mật dự kiến sẽ cải thiện đáng kể hiệu suất và độ tin cậy của quân đội trong các nhiệm vụ cụ thể. Kế hoạch này được đưa ra trong bối cảnh nhu cầu ngày càng tăng về các mô hình AI mạnh hơn trong quân đội Hoa Kỳ: Lầu Năm Góc đã đạt được thỏa thuận với OpenAI và xAI của Musk để vận hành các mô hình của mình trong môi trường mật và đang theo đuổi chiến lược trí tuệ nhân tạo mới nhằm biến quân đội Hoa Kỳ thành "lực lượng chiến đấu ưu tiên AI" để đối phó với cuộc xung đột leo thang với Iran. Tính đến thời điểm báo chí, Lầu Năm Góc chưa bình luận chính thức về kế hoạch huấn luyện này.

Theo hai người quen thuộc với các chế độ vận hành liên quan, khóa đào tạo trên sẽ được sắp xếp trong một trung tâm dữ liệu được chứng nhận cho các dự án bí mật, nơi một phiên bản nhất định của mô hình AI sẽ được ghép nối với dữ liệu bí mật trong cùng một môi trường an toàn. Theo quan chức quốc phòng này, mặc dù quyền sở hữu dữ liệu vẫn thuộc về Bộ Quốc phòng Hoa Kỳ, nhưng trong một số trường hợp hiếm hoi, nhân viên của công ty AI cũng có thể được phép truy cập dữ liệu bí mật nếu nhân viên liên quan có giấy phép bảo mật phù hợp. Trước khi thực sự chạm vào dữ liệu đã được phân loại, Lầu Năm Góc có kế hoạch thử nghiệm dữ liệu chưa được phân loại trước tiên, chẳng hạn như hình ảnh vệ tinh thương mại, để đánh giá những cải tiến thực tế về độ chính xác và hiệu quả của mô hình đã được đào tạo.

Quân đội Hoa Kỳ từ lâu đã sử dụng thế hệ mô hình thị giác máy tính trước đó để thực hiện nhận dạng đối tượng trên hình ảnh và video do máy bay không người lái và máy bay trinh sát thu thập, đồng thời thông qua các hợp đồng của chính phủ đã ủy quyền cho các công ty đào tạo các thuật toán trên dữ liệu đó. Trong những năm gần đây, các mô hình ngôn ngữ lớn và phiên bản chatbot dành riêng cho các kịch bản của chính phủ cũng lần lượt xuất hiện, chẳng hạn như Claude Gov do Anthropic ra mắt, trong đó nhấn mạnh đến khả năng đa ngôn ngữ và triển khai trong một môi trường an toàn. Tuy nhiên, tuyên bố này của các quan chức quốc phòng là lần đầu tiên tiết lộ rõ ràng rằng các công ty như OpenAI và xAI phát triển các mô hình ngôn ngữ quy mô lớn có thể trực tiếp đào tạo các mô hình do chính phủ tùy chỉnh trên dữ liệu bí mật.

Aalok Mehta, cựu giám đốc chính sách AI tại Google và OpenAI và hiện là giám đốc Trung tâm AI Wadhwani thuộc Trung tâm Nghiên cứu Chiến lược và Quốc tế (CSIS), đã chỉ ra rằng so với việc chỉ “đọc và trả lời” trong môi trường bí mật, việc thực sự sử dụng dữ liệu bí mật để đào tạo mô hình sẽ mang đến những rủi ro mới. Ông tin rằng vấn đề lớn nhất là thông tin bí mật được hấp thụ bởi quá trình đào tạo mô hình có thể "xuất hiện trở lại" khi nó được những người dùng khác truy vấn hoặc gọi trong tương lai. Điều này đặc biệt nguy hiểm khi chia sẻ một tập hợp mô hình trên nhiều dịch vụ hoặc dịch vụ có mức độ bảo mật và nhu cầu thông minh khác nhau.

Mehta Ví dụ: nếu một mô hình có quyền truy cập vào trí thông minh rất nhạy cảm của con người, chẳng hạn như danh tính của một đặc vụ bí mật, thì thông tin đó có thể vô tình bị "rò rỉ" sang một nhánh khác của quân đội không có quyền truy cập khi mô hình được sử dụng. Điều này không chỉ gây ra rủi ro sinh tử cho các nguồn tình báo và nhân viên tiền tuyến, mà về mặt kỹ thuật còn khó có thể ngăn chặn tuyệt đối, đặc biệt khi cùng một mô hình được nhiều đơn vị chia sẻ. Ngược lại, ông tin rằng việc "khóa" thông tin bí mật trong quân đội sẽ tương đối dễ dàng hơn và tránh thông tin đó chảy ngược trở lại các công ty Internet hoặc AI mở.

Hiện tại, chính phủ Hoa Kỳ đã thiết lập một số cơ sở hạ tầng liên quan: ví dụ: công ty bảo mật Palantir đã nhận được nhiều hợp đồng quy mô lớn để xây dựng một hệ thống bảo mật cho chính phủ có thể trả lời các câu hỏi về các chủ đề bí mật mà không chuyển thông tin lại cho các công ty AI. Trong các hệ thống này, các quan chức có thể đặt câu hỏi về các mô hình về nội dung được phân loại trong khi dữ liệu được giới hạn trong môi trường được kiểm soát. Tuy nhiên, việc áp dụng kiến trúc bảo mật tương tự vào đào tạo, chứ không chỉ suy luận và trả lời câu hỏi, vẫn là một thách thức mới về kỹ thuật và quản lý.

Vào tháng 1 năm nay, Bộ trưởng Quốc phòng Pete Hegseth đã ban hành một bản ghi nhớ kêu gọi đẩy nhanh việc giới thiệu nhiều khả năng AI hơn trong toàn bộ hệ thống phòng thủ, thúc đẩy việc bố trí chạy đua của Lầu Năm Góc trong lĩnh vực này. AI sáng tạo đã được sử dụng trong chiến đấu thực tế, chẳng hạn như xếp hạng các mục tiêu tiềm năng và đưa ra đề xuất tấn công ưu tiên. Nó cũng đã được sử dụng trong công việc hành chính như viết hợp đồng và tổ chức báo cáo. Từ góc độ của lĩnh vực quốc phòng, nhiều nhiệm vụ ban đầu do các nhà phân tích con người thực hiện có thể dựa vào các mô hình AI mạnh hơn trong tương lai, nhưng điều này cũng có nghĩa là một lượng lớn dữ liệu bí mật phải được mở cho các mô hình.

Mehta cho biết quân đội có thể hy vọng rằng AI có thể học được một số phán đoán tinh tế phụ thuộc nhiều vào kinh nghiệm, chẳng hạn như xác định những manh mối cực kỳ tinh vi trong hình ảnh như một nhà phân tích cấp cao hoặc tạo ra các mối liên hệ phức tạp giữa thông tin tình báo mới thu được và thông tin lịch sử. Để đạt được mục tiêu này, dữ liệu văn bản, âm thanh, hình ảnh và video đa ngôn ngữ và rộng lớn của các cơ quan tình báo có thể trở thành nguồn tài liệu đào tạo. Tuy nhiên, ông cũng nhấn mạnh rằng rất khó để giải thích với thế giới bên ngoài những nhiệm vụ cụ thể nào cần được đào tạo về dữ liệu bí mật, vì Bộ Quốc phòng có động cơ mạnh mẽ để giữ bí mật về các khả năng cụ thể của mình và không muốn các nước khác hiểu chính xác ranh giới công nghệ của Hoa Kỳ trong lĩnh vực này.

Trong mắt thế giới bên ngoài, bước đi của Lầu Năm Góc không chỉ là đáp ứng nhu cầu tiền tuyến mà còn là một canh bạc công nghệ có rủi ro cao: một khi thông tin tình báo bí mật được nhúng sâu vào các mô hình lớn, quân đội sẽ có được khả năng phân tích tự động và hỗ trợ ra quyết định vượt xa khả năng của các hệ thống truyền thống nhưng cũng sẽ phải đối mặt với những rủi ro bảo mật mới như "bộ nhớ" mô hình quá mức, rò rỉ ngẫu nhiên và ranh giới truy cập mờ. Hiện tại, các cơ quan quốc phòng Mỹ đang cố gắng tìm kiếm sự cân bằng giữa “giành lợi thế quân sự” và “kiểm soát rủi ro an ninh” vốn chưa được thử nghiệm đầy đủ trên thực tế bằng cách thiết lập các trung tâm dữ liệu an toàn có tính cách ly cao, kiểm soát truy cập nghiêm ngặt cũng như các phương pháp triển khai mô hình theo lớp và tùy chỉnh.