Một người quen thuộc với vấn đề này tiết lộ rằng OpenAI đang hoàn thiện một mô hình mới với khả năng bảo mật mạng tiên tiến và có kế hoạch chỉ cung cấp mô hình này cho một số ít khách hàng doanh nghiệp, tương tự như việc Anthropic phát hành quy mô nhỏ mô hình bảo mật mạng "Mythos". Sở dĩ nó thu hút sự chú ý là do trí tuệ nhân tạo được nhiều chuyên gia bảo mật đánh giá là đã đạt “điểm tới hạn” về khả năng tự chủ và khả năng hack. Các công ty phát triển mô hình hiện ngày càng lo lắng về những thiệt hại trong đời thực mà các công cụ của chính họ có thể gây ra, đến mức họ không sẵn sàng "thả" nó hoàn toàn ra môi trường đại chúng.

Vào thứ Ba, Anthropic đã thông báo rằng mô hình mới "Mythos Preview" sẽ chỉ dành cho một số ít các công ty công nghệ và an ninh mạng được lựa chọn cẩn thận vì mô hình này có khả năng xâm nhập và khai thác rất tiên tiến, làm dấy lên lo ngại về khả năng lạm dụng. Vào thời điểm đó, Anthropic là công ty AI đầu tiên áp dụng những hạn chế nghiêm ngặt như vậy đối với chiến lược phát hành mô hình mới của mình và giờ đây OpenAI được tiết lộ là đang có kế hoạch đi theo con đường tương tự.

Xem chi tiết, OpenAI đã khởi động một dự án thí điểm có tên "Truy cập đáng tin cậy cho mạng" (Truy cập bảo mật mạng đáng tin cậy) vào tháng 2 năm nay sau khi ra mắt GPT‑5.3‑Codex, dự án có khả năng suy luận về bảo mật mạng mạnh nhất cho đến nay. Theo blog của công ty, các tổ chức được mời tham gia chương trình khép kín sẽ có quyền truy cập vào khả năng phòng thủ và tấn công mạng cao hơn hoặc mô hình "tha thứ" cao hơn để đẩy nhanh các nỗ lực bảo mật phòng thủ hợp pháp. Vào thời điểm đó, OpenAI cũng hứa rằng họ sẽ cung cấp tổng cộng 10 triệu USD hỗ trợ hạn ngạch API cho những người tham gia dự án để thực hiện các thử nghiệm và triển khai liên quan.

Bối cảnh lớn hơn là trong năm qua, nhiều cựu quan chức chính phủ và lãnh đạo an ninh hàng đầu đã gióng lên hồi chuông cảnh báo rằng nếu rơi vào tay những kẻ có động cơ thầm kín, một ngày nào đó một số mô hình AI có thể phá hủy hệ thống nước, mạng lưới điện và thậm chí cả cơ sở hạ tầng tài chính mà không có sự can thiệp của con người. Những khả năng này, trước đây được coi là "kịch bản tương lai", giờ đây đang bắt đầu hình thành trong mắt những người trong ngành.

Tuy nhiên, ngay cả khi các công ty AI tạm thời "thắt cửa xả lũ" thông qua các đợt thử nghiệm hạn chế, phát hành theo từng giai đoạn, v.v., các chuyên gia bảo mật hàng đầu thường tin rằng xu hướng chung khó có thể đảo ngược. "Bạn không thể ngăn mô hình thực hiện việc liệt kê mã hoặc tìm ra sơ hở trong cơ sở mã cũ. Khả năng này đã tồn tại một cách khách quan." Rob T. Lee, giám đốc AI của Viện SANS, đã chỉ ra. Wendi Whitmore, giám đốc tình báo an ninh tại Palo Alto Networks, cho biết trong một cuộc thảo luận bàn tròn tại hội nghị HumanX ở San Francisco rằng có thể chỉ còn vài tuần hoặc vài tháng trước khi mô hình tiếp theo có khả năng tương tự xuất hiện và chuyển sang một môi trường cởi mở hơn. Adam Meyers, phó chủ tịch cấp cao về các biện pháp đối phó của CrowdStrike, đã mô tả những khả năng mà Mythos thể hiện là “lời cảnh tỉnh cho toàn bộ ngành”.

Theo quan điểm của một số nhà thực hành bảo mật, nếu các công ty thực sự lo lắng về khả năng của mô hình này trong việc “viết các chương trình tấn công và khai thác mới” thay vì chỉ “giúp mọi người tìm ra các lỗ hổng hiện có”, thì sẽ “hợp lý” hơn nếu hạn chế phạm vi ra mắt của các mô hình tiên tiến nhất và triển khai phát hành hàng loạt. Stanislav Fort, Giám đốc điều hành của Công ty An ninh Lối đi, nói với Axios rằng khả năng tự động tạo chuỗi khai thác lỗ hổng mới có nhiều khả năng đe dọa đến hệ sinh thái hơn là chỉ phát hiện ra lỗ hổng, vì vậy nó cần được xác minh từ từ trong môi trường được kiểm soát.

Một số chuyên gia cũng chỉ ra rằng mô hình quy mô lớn hiện nay được mở theo từng giai đoạn, ở một mức độ nào đó rất giống với cách các nhà cung cấp an ninh mạng truyền thống tiết lộ thông tin về lỗ hổng phần mềm. Lee tin rằng điều này rất giống với cuộc tranh luận mà ngành đã có trong nhiều năm qua xung quanh việc "tiết lộ lỗ hổng có trách nhiệm": làm thế nào để cân bằng thời gian và phạm vi giữa việc tiết lộ rủi ro và cung cấp các bản vá là một vấn đề được thảo luận nhiều lần. Sự khác biệt là thứ được "chậm tiết lộ" lần này không còn là một lỗ hổng phần mềm đơn lẻ nữa mà là một công cụ thông minh tổng quát có thể khuếch đại đáng kể khả năng tấn công và phòng thủ.

Không rõ liệu OpenAI có đưa mô hình bảo mật mạng sắp ra mắt này ra thị trường rộng rãi hơn vào một thời điểm nào đó trong tương lai hay không. Ngược lại, Anthropic đã nói rõ rằng họ sẽ không phát hành đầy đủ Mythos Preview ra công chúng, nhưng nếu nó có thể được trang bị các thanh chắn an toàn đủ mạnh trong tương lai, thì không loại trừ khả năng xem xét phạm vi mở rộng hơn cho các mẫu khác trong dòng Mythos. Đồng thời, các nhóm nghiên cứu như Aisle cũng nhắc nhở rằng các mô hình AI hiện có rộng rãi trên thị trường có thể tìm thấy một số lượng đáng kể lỗ hổng và đường dẫn khai thác trong các trường hợp trình diễn của Mythos. Điều này có nghĩa là những gì thực sự cấu thành nên "con hào" bảo mật có lẽ là các hệ thống và quy trình được xây dựng xung quanh mô hình hơn là "khối lượng" và "thế hệ" của chính mô hình đó.