Naver chính thức thông báo rằng họ sẽ loại bỏ hoàn toàn bộ mã hóa hình ảnh Alibaba Qwen 2.5 của Trung Quốc được sử dụng trong mô hình AI của mình và thay thế hoàn toàn bằng bộ mã hóa hình ảnh tự phát triển. Naver Cloud đã hoàn thành quá trình phát triển bộ mã hóa hình ảnh tự phát triển vào đầu tháng trước và đã bắt đầu công việc nội bộ hóa, với kế hoạch áp dụng hoàn toàn nó cho tất cả các mô hình đa phương thức trong tương lai.

Naver tuyên bố rằng bộ mã hóa mới được cải tiến đáng kể dựa trên công nghệ gốc “VUClip” của Naver và hiệu suất của nó đã đạt đến mức tương đương với mẫu Qwen hàng đầu thế giới.

Bộ mã hóa hình ảnh là một mô-đun trong AI đa phương thức giúp chuyển đổi thông tin hình ảnh và video thành các định dạng dữ liệu dễ hiểu. Nó được gọi là "dây thần kinh thị giác" của mô hình.

Vào đầu năm, khi Naver tham gia vào dự án mô hình cơ bản AI độc lập do chính phủ Hàn Quốc dẫn đầu, nó đã gây ra tranh cãi vì sử dụng một phần bộ mã hóa hình ảnh Qwen 2.5 của Alibaba trong mô hình HyperCLOVA X SEED 32B Sync.

Ngày 15/1, Bộ Khoa học, Công nghệ, Thông tin và Truyền thông Hàn Quốc đã công bố kết quả đợt rà soát đầu tiên. Naver Cloud đã bị loại trực tiếp do mô hình không đủ độc đáo và độc lập về mặt kỹ thuật. NC AI cũng bị loại cùng với nó.

Vào thời điểm đó, Naver lập luận rằng “bộ mã hóa hình ảnh có thể được thay thế bất cứ lúc nào và không phải là thành phần cốt lõi không thể thay thế”.

Bốn tháng sau, bộ mã hóa mới của Naver được ra mắt. Điểm nổi bật lớn nhất của nó là được thiết kế lấy tiếng Hàn làm trung tâm ngay từ khâu đào tạo, kết nối trực tiếp hình ảnh và tiếng Hàn mà không cần qua lớp dịch trung gian.

Người phụ trách Naver Cloud nhấn mạnh rằng khi xử lý dữ liệu trực quan có chứa địa lý, văn hóa hoặc danh từ riêng Hàn Quốc, bộ mã hóa mới có thể tránh làm sai lệch thông tin trong quá trình dịch thuật.

Tuy nhiên, kế hoạch thay thế bộ mã hóa cho mẫu HyperCLOVA X SEED 32B Sync đã có nguồn mở trước đây vẫn chưa được xác định.