OpenAI phát hành bộ công cụ nguồn mở an toàn cho thanh thiếu niên để giúp các nhà phát triển xây dựng các ứng dụng AI an toàn hơn

OpenAI đã công bố vào thứ Ba rằng họ đã tung ra một bộ công cụ nhắc nhở về chính sách an toàn dành cho thanh thiếu niên cho các nhà phát triển, nhằm giúp các ứng dụng của bên thứ ba kết hợp các quy tắc an toàn để bảo vệ trẻ vị thành niên ngay từ đầu thiết kế. Bộ công cụ này có sẵn dưới dạng một tập hợp các lời nhắc "Chính sách an toàn cho thanh thiếu niên" có thể gọi trực tiếp và có thể được sử dụng với mô hình an toàn có trọng số nguồn mở gpt-oss-safeguard của OpenAI.

OpenAI tuyên bố rằng các nhà phát triển không cần phải bắt đầu lại từ đầu để khám phá cách thiết kế cơ chế an toàn cho trẻ vị thành niên và có thể trực tiếp sử dụng bộ từ nhắc nhở này để "củng cố" các ứng dụng AI hiện có hoặc mới được phát triển. Các chính sách này tập trung vào các lĩnh vực nhạy cảm như bạo lực bằng hình ảnh và nội dung khiêu dâm, hình ảnh và hành vi có hại cho cơ thể, các hoạt động và thử thách rủi ro, đóng vai lãng mạn hoặc bạo lực cũng như hàng hóa và dịch vụ bị giới hạn độ tuổi. Công ty nhấn mạnh rằng các chính sách bảo mật này được cung cấp dưới dạng lời nhắc nên có thể dễ dàng điều chỉnh cho phù hợp với các mô hình khác ngoài gpt-oss-safeguard, nhưng hiệu quả dự kiến sẽ tốt hơn khi được sử dụng trong hệ sinh thái của chính OpenAI.

Trong quá trình phát triển chính sách, OpenAI đã làm việc với các bên thứ ba trong lĩnh vực an toàn nội dung và thanh thiếu niên, bao gồm cơ quan giám sát an toàn AI Common Sense Media và mọi người.ai. Robbie Torney, người đứng đầu bộ phận đánh giá AI và kỹ thuật số tại Common Sense Media, cho biết trong một tuyên bố rằng các chính sách dựa trên lời nói nhanh chóng này giúp thiết lập điểm mấu chốt về bảo mật có ý nghĩa cho toàn bộ hệ sinh thái và phương pháp phát hành nguồn mở cũng cho phép tất cả các bên liên tục điều chỉnh và cải thiện theo thời gian.

OpenAI đã chỉ ra trong một blog đồng hành rằng ngay cả các đội có kinh nghiệm cũng thường gặp khó khăn trong việc chuyển các mục tiêu bảo mật trừu tượng thành các quy tắc cụ thể, có thể thực thi được trong thực tế. Công ty cho rằng sự sai lệch này có thể dẫn đến sơ hở trong các biện pháp bảo vệ, tiêu chuẩn thực hiện không nhất quán và thậm chí là chặn quá mức, vì vậy các chính sách rõ ràng và có giới hạn là nền tảng quan trọng để xây dựng một hệ thống bảo mật hiệu quả.

OpenAI cũng thừa nhận rằng bộ chính sách này về cơ bản không thể giải quyết được tất cả những thách thức phức tạp về bảo mật AI. Tuy nhiên, công ty nhấn mạnh rằng công cụ mới này là sự mở rộng hơn nữa các biện pháp bảo mật hiện có, bao gồm kiểm soát của phụ huynh ở cấp độ sản phẩm, dự đoán độ tuổi và các chức năng khác. Vào năm 2025, OpenAI đã cập nhật đặc tả hành vi (Model Spec) của mô hình ngôn ngữ lớn để làm rõ cách mô hình sẽ phản hồi và giới hạn khi đối mặt với người dùng dưới 18 tuổi.

Tuy nhiên, OpenAI vẫn phải đối mặt với các câu hỏi về hồ sơ an toàn của chính mình. Công ty hiện đang phải đối mặt với nhiều vụ kiện từ thành viên gia đình của những người dùng đã tự tử sau khi sử dụng ChatGPT quá mức. Vụ kiện cáo buộc rằng một số mối quan hệ nguy hiểm được hình thành sau khi người dùng bỏ qua bảo mật chatbot và không có biện pháp phòng vệ nào của mô hình hiện tại thực sự "không thể xuyên thủng". Trong bối cảnh đó, ngành nói chung tin rằng mặc dù lời nhắc về chính sách an toàn cho thanh thiếu niên nguồn mở này không phải là giải pháp tối ưu nhưng nó cung cấp một lộ trình tuân thủ tương đối dễ sử dụng cho các nhà phát triển độc lập và các nhóm nhỏ, đồng thời được coi là một bước tiến mới trong việc thúc đẩy các thực hành an toàn AI cho trẻ vị thành niên.

Tìm hiểu thêm:

https://github.com/openai/teen-safety-policy-pack