OpenAI phát hành phiên bản thứ ba của mô hình thị giác trí tuệ nhân tạo DALL-E

OpenAI đã phát hành phiên bản thứ ba của nền tảng nghệ thuật thị giác trí tuệ nhân tạo tổng hợp DALL-E, hiện cho phép người dùng tạo lời nhắc bằng ChatGPT và bao gồm nhiều tùy chọn bảo mật hơn. DALL-E chuyển đổi lời nhắc văn bản thành hình ảnh. Nhưng ngay cả DALL-E2 cũng mắc lỗi, thường bỏ qua cách diễn đạt cụ thể. Các nhà nghiên cứu OpenAI cho biết phiên bản mới nhất hiểu ngữ cảnh tốt hơn.

Một tính năng mới của DALL-E3 là tích hợp với ChatGPT. Bằng cách sử dụng ChatGPT, người dùng không cần phải tự viết lời nhắc chi tiết để hướng dẫn DALL-E3; họ chỉ cần yêu cầu ChatGPT đưa ra lời nhắc và chatbot sẽ viết một đoạn văn (DALL-E sử dụng câu dài hơn sẽ tốt hơn) để DALL-E3 làm theo. Những người dùng khác cũng có thể sử dụng thủ thuật của riêng mình nếu họ có ý tưởng đặc biệt dành cho DALL-E.

DALL-E được phát hành lần đầu tiên vào tháng 1 năm 2021, trước StabilityAI và các nền tảng nghệ thuật AI thế hệ chuyển văn bản thành hình ảnh khác của Midjourney. Vào thời điểm DALL-E2 ra mắt vào năm 2022, OpenAI đã mở một danh sách chờ để kiểm soát những người có thể sử dụng nền tảng này trong bối cảnh bị chỉ trích rằng DALL-E có thể tạo ra những hình ảnh rõ ràng như thực tế và thể hiện sự thiên vị trong những bức ảnh mà nó tạo ra. Tháng 9 năm ngoái, công ty đã loại bỏ danh sách chờ và mở bán DALL-E2 ra công chúng.

Phiên bản mới của DALL-E sẽ được phát hành đầu tiên cho người dùng ChatGPTPlus và ChatGPTEnterprise vào tháng 10, sau đó là các phòng thí nghiệm nghiên cứu và dịch vụ API của họ vào mùa thu. OpenAI có kế hoạch trì hoãn việc phát hành DALL-E3, nhưng chưa cam kết khi nào phiên bản công khai miễn phí sẽ được phát hành.

OpenAI tuyên bố rằng họ đã thực hiện nhiều công việc trên DALL-E3, tập trung vào việc tạo ra các biện pháp bảo mật mạnh mẽ để ngăn chặn việc tạo ra các hình ảnh tục tĩu hoặc có khả năng gây thù hận. OpenAI cho biết họ hoạt động với các redteam bên ngoài – một nhóm cố tình xâm phạm hệ thống để kiểm tra tính bảo mật của nó – và dựa vào các bộ phân loại đầu vào, một phương pháp dạy các mô hình ngôn ngữ bỏ qua một số từ nhất định để tránh những lời nhắc rõ ràng hoặc bạo lực. DALL-E3 cũng không thể tái tạo hình ảnh của một nhân vật của công chúng - miễn là tên đó được đề cập rõ ràng trong lời nhắc.

Sandhini Agarwal, nhà nghiên cứu chính sách của công ty, cho biết cô "rất tin tưởng" vào các biện pháp bảo mật của công ty, nhưng cô cũng nói rõ rằng mô hình này không ngừng cải tiến và không hoàn hảo. Một đại diện của OpenAI cho biết trong email rằng DALL-E3 đã được đào tạo để không tạo ra những hình ảnh theo phong cách của những nghệ sĩ sống. Không giống như DALL-E2, DALL-E2 có thể bắt chước phong cách nghệ thuật của một số nghệ sĩ khi được nhắc.

Có thể để tránh các vụ kiện có thể xảy ra, OpenAI cũng sẽ cho phép các nghệ sĩ chọn loại trừ tác phẩm nghệ thuật của họ khỏi các phiên bản tương lai của mô hình AI chuyển văn bản thành hình ảnh. Người sáng tạo có thể gửi hình ảnh mà họ sở hữu bản quyền và yêu cầu xóa chúng bằng cách điền vào biểu mẫu trên trang web. Bằng cách này, các phiên bản tương lai của DALL-E có thể chặn các kết quả giống với hình ảnh và phong cách của nghệ sĩ. Các nghệ sĩ đã kiện các đối thủ cạnh tranh của DALL-E là StabilityAI và Midjourney, cũng như trang web nghệ thuật DeviantArt, cáo buộc họ sử dụng các tác phẩm có bản quyền của mình để đào tạo các mô hình văn bản-hình ảnh.