Các cơ quan an ninh mạng của Hoa Kỳ và các đồng minh gần đây đã cùng nhau ban hành hướng dẫn triển khai bảo mật cho “tác nhân AI” (tác nhân AI), nhấn mạnh rằng những hệ thống AI như vậy có thể hoạt động tự động trên mạng đã xâm nhập vào các khu vực rất nhạy cảm như cơ sở hạ tầng quan trọng và phòng thủ, nhưng hầu hết các tổ chức đều cấp cho họ quyền truy cập vượt xa khả năng giám sát và kiểm soát của chính họ. Tài liệu kêu gọi các tổ chức khác nhau coi các tác nhân AI tự trị là vấn đề an ninh mạng cốt lõi và ưu tiên khả năng phục hồi, khả năng đảo ngược và ngăn chặn rủi ro thay vì chỉ theo đuổi cải tiến hiệu quả.

Tải xuống toàn văn:

https://cyberscoop.com/wp-content/uploads/sites/3/2026/05/CAREFUL-ADOPTION-OF-AGENTIC- AI-SERVICES_FINAL.pdf

Hướng dẫn này do Cơ quan An ninh Cơ sở hạ tầng và An ninh mạng Hoa Kỳ đồng biên soạn (CISA), Cơ quan An ninh Quốc gia (NSA), Trung tâm An ninh Mạng Úc của Cơ quan Tín hiệu Úc, Trung tâm An ninh Mạng Canada, Trung tâm An ninh Mạng Quốc gia New Zealand và Trung tâm An ninh Mạng Quốc gia Anh. Nó được phát hành vào thứ Sáu theo giờ địa phương. “AI đặc vụ” mà hướng dẫn tập trung vào là một hệ thống phần mềm được xây dựng trên mô hình ngôn ngữ lớn có khả năng lập kế hoạch, đưa ra quyết định và thực hiện các hành động một cách tự động trong phạm vi quyền hạn được thiết lập. Để hoàn thành các tác vụ phức tạp, các hệ thống như vậy thường cần giao tiếp với các công cụ bên ngoài, cơ sở dữ liệu, kho bộ nhớ và quy trình làm việc tự động để thực hiện các tác vụ gồm nhiều bước mà không cần xem xét thủ công từng bước.

Tổ chức xuất bản chung nhấn mạnh trong tài liệu rằng việc triển khai AI dựa trên tác nhân không có nghĩa là phải xây dựng lại hệ thống bảo mật hoàn chỉnh mà phải được tích hợp vào khung quản trị và khung bảo mật mạng hiện có. Các đề xuất bao gồm: áp dụng một cách có hệ thống các nguyên tắc hiện có như không tin cậy, độ sâu phòng thủ và đặc quyền tối thiểu cho các tác nhân AI; coi các tác nhân AI là các thành phần kỹ thuật "có độ nhạy cao, quyền mạnh mẽ" để quản trị ở các khía cạnh như quản lý danh tính và quyền truy cập, nhật ký kiểm tra và kiểm soát thay đổi. Hướng dẫn

tóm tắt các rủi ro liên quan đến AI dựa trên tác nhân thành năm loại chính. Đầu tiên là "rủi ro về quyền": Khi tác nhân AI được cấp quyền truy cập quá cao hoặc quá rộng, một cuộc xâm nhập thành công có thể gây ra thiệt hại vượt xa các lỗ hổng phần mềm truyền thống, chẳng hạn như giả mạo tập trung các cấu hình quan trọng hoặc làm gián đoạn các doanh nghiệp quy mô lớn. Loại thứ hai là rủi ro về lỗi thiết kế và cấu hình, tức là trước khi hệ thống trực tuyến, do thiết kế kiến ​​trúc không phù hợp, cấu hình mặc định quá lỏng lẻo hoặc định nghĩa ranh giới bảo mật mơ hồ, tồn tại những lỗ hổng bảo mật cố hữu khó bù đắp.

Loại rủi ro thứ ba được phân loại là "rủi ro hành vi", nghĩa là khi theo đuổi mục tiêu, tác nhân có thể đi theo những con đường mà người thiết kế không mong đợi hoặc thậm chí không bao giờ hình dung ra, từ đó gây ra sự cố về bảo mật hoặc tuân thủ. Loại thứ tư là “rủi ro cơ cấu”. Khi nhiều tác nhân được kết hợp với các hệ thống kinh doanh phức tạp vào một mạng, một lỗi hoặc hành vi bất thường có thể xảy ra và lan rộng trong hệ thống, gây ra phản ứng dây chuyền giữa các hệ thống và bộ phận.

Loại rủi ro thứ năm liên quan đến “trách nhiệm giải trình”. Hướng dẫn chỉ ra rằng quá trình ra quyết định của tác nhân AI thường khó kiểm tra đầy đủ và nhật ký hoạt động cũng như hồ sơ quyết định mà nó tạo ra không dễ phân tích, điều này khiến việc truy tìm nguyên nhân gốc rễ của vấn đề và làm rõ trách nhiệm sau đó trở nên vô cùng khó khăn. Khi xảy ra lỗi trong hệ thống như vậy, hậu quả sẽ không còn ở "mức độ ảo" mà sẽ được phản ánh ở các tài sản CNTT cụ thể, chẳng hạn như các tệp bị giả mạo, kiểm soát truy cập bị thay đổi, dấu vết kiểm toán bị xóa, v.v., ảnh hưởng trực tiếp đến công việc thu thập và phục hồi bằng chứng.

Tài liệu cũng cảnh báo cụ thể về nguy cơ bị tấn công do "tiêm nhanh". Những kẻ tấn công có thể âm thầm nhúng các hướng dẫn vào dữ liệu hoặc nội dung để hướng dẫn tác nhân AI đi chệch khỏi nhiệm vụ ban đầu và thực hiện các hoạt động độc hại. Việc tiêm gợi ý luôn được coi là một căn bệnh mãn tính trong hệ sinh thái mô hình ngôn ngữ lớn. Một số công ty đã công khai thừa nhận rằng vấn đề này có thể phải mất một thời gian dài mới được xóa bỏ hoàn toàn. Điều này cũng làm cho tác hại tiềm tàng của kiểu tấn công này trở nên đặc biệt nổi bật trong các tình huống proxy tự động hơn.

Ở cấp độ các biện pháp bảo vệ cụ thể, quản lý danh tính chiếm một vị trí quan trọng trong toàn bộ hướng dẫn. Cơ quan chung khuyến nghị rằng mỗi tác nhân AI nên có danh tính độc lập có thể xác minh được bảo vệ bằng mật mã; thông tin xác thực mà nó sử dụng phải có giá trị trong một khoảng thời gian ngắn; tất cả thông tin liên lạc giữa tác nhân với các tác nhân và dịch vụ khác phải sử dụng các kênh được mã hóa. Đối với bất kỳ hoạt động nào có thể có tác động đáng kể, chẳng hạn như sửa đổi cấu hình quan trọng, nâng cao đặc quyền của người dùng hoặc xóa dữ liệu quy mô lớn, nguyên tắc yêu cầu rõ ràng rằng phải được con người thực hiện phê duyệt và người thiết kế hệ thống chứ không phải chính tác nhân phải xác định hoạt động nào là "hành vi có tác động cao".

Đồng thời, cơ quan phát hành cũng thừa nhận rằng thực tiễn của ngành bảo mật hiện tại vẫn chưa bắt kịp hoàn toàn với tốc độ phát triển của AI dựa trên tác nhân. Một số rủi ro với "đặc điểm tác nhân AI" đặc biệt vẫn chưa được giải quyết đầy đủ trong khuôn khổ bảo mật hiện tại và cần có nhiều nghiên cứu và hợp tác liên ngành và liên ngành hơn. Hướng dẫn chỉ ra rằng trước khi các phương pháp bảo mật, phương pháp đánh giá và các tiêu chuẩn liên quan chưa hoàn thiện, các tổ chức nên cho rằng tác nhân AI “có thể biểu hiện các hành vi không mong muốn” và lập kế hoạch triển khai phù hợp, ưu tiên đảm bảo khả năng phục hồi, khả năng đảo ngược và khả năng kiểm soát rủi ro trong thiết kế hệ thống, thay vì mù quáng theo đuổi lợi tức hiệu quả do tự động hóa mang lại.