OpenAI phản hồi những câu hỏi kỳ quặc về “Goblin” của mô hình Codex được yêu cầu không đề cập đến các sinh vật thần thoại nữa

Sau khi "Wired" tiết lộ rằng OpenAI đã đưa ra cho mô hình lập trình của mình một hướng dẫn nội bộ là "không bao giờ nói về yêu tinh, gremlins, gấu trúc, troll, yêu tinh, chim bồ câu hoặc các động vật hoặc sinh vật khác", OpenAI đã đưa ra một bài viết trên trang web chính thức của mình để giải thích hiện tượng này, nói rằng đây là một "thói quen kỳ lạ" do mô hình hình thành trong quá trình đào tạo.

OpenAI đã tuyên bố rằng kiểu biểu đạt ẩn dụ liên quan đến yêu tinh và các sinh vật khác lần đầu tiên được chú ý rõ ràng trên mẫu GPT-5.1, đặc biệt là khi bật tùy chọn tính cách "Nerdy". Theo hãng, khi các mẫu xe tiếp theo tiếp tục được lặp đi lặp lại, cách thể hiện này không hề biến mất mà dần dần lan rộng.

OpenAI đã chỉ ra trong phần mô tả rằng gốc rễ của vấn đề có liên quan đến đào tạo học tăng cường: mặc dù phần thưởng liên quan ban đầu chỉ được áp dụng cho điều kiện tính cách "Merdy", học tăng cường không đảm bảo rằng hành vi đã học luôn bị giới hạn nghiêm ngặt đối với các điều kiện đã kích hoạt nó. Khi một phong cách ngôn ngữ hoặc cách diễn đạt nhất định được khen thưởng, các quy trình đào tạo tiếp theo có thể truyền nó sang các kịch bản khác, đặc biệt là khi các kết quả đầu ra này được sử dụng lại để đào tạo dữ liệu ưu tiên hoặc tinh chỉnh có giám sát. Xu hướng này sẽ được củng cố hơn nữa.

Có thông tin cho rằng khi OpenAI ngừng cung cấp tính cách "Nerdy" vào tháng 3 năm nay, những biểu hiện như vậy về yêu tinh và gremlin thực sự đã giảm, nhưng chúng chưa biến mất hoàn toàn. Đặc biệt trong mô hình GPT-5.5 được công cụ lập trình Codex sử dụng, do OpenAI bắt đầu huấn luyện mô hình trước khi xác định được “nguyên nhân gốc rễ” nên các biểu thức liên quan vẫn còn trong đó.

Vì điều này, OpenAI cuối cùng đã phải thêm các ràng buộc rất cụ thể vào Codex, yêu cầu rõ ràng là không đề cập đến những sinh vật thần thoại này nữa. Tuy nhiên, báo cáo cũng đề cập rằng nếu ai đó muốn AI của họ giữ lại một chút “phong cách Goblin” này khi viết mã, OpenAI thậm chí còn chia sẻ công khai một phương pháp có thể được sử dụng để thu hồi các hạn chế có liên quan.

Đánh giá từ phản hồi này, đằng sau "vấn đề Yêu tinh" có vẻ vô lý này, nó thực sự phản ánh một vấn đề thực tế hơn trong quá trình đào tạo mô hình lớn: một số thói quen ngôn ngữ lẽ ra chỉ xuất hiện trong môi trường tính cách cụ thể có thể lan sang phạm vi hành vi mô hình rộng hơn dưới tác động chồng chất của cơ chế khen thưởng và quá trình đào tạo tiếp theo. Đối với OpenAI, đây không chỉ là lời giải thích công khai về kiểu mô hình ngoài tầm kiểm soát mà còn là một cái nhìn thoáng qua về sự phức tạp mà nó phải đối mặt khi điều chỉnh những sai lệch hành vi tinh vi trong AI tổng quát.