Tối ngày 16/3, CEO Tesla Musk đã công khai lên tiếng trên mạng xã hội, ca ngợi những thành tựu công nghệ mới nhất của nhóm Kimi, công ty trí tuệ nhân tạo Trung Quốc, cho rằng công trình này rất "ấn tượng" và đưa những nghiên cứu tiên tiến của mẫu xe nội địa cỡ lớn này đến với công chúng.

Với việc phát hành đồng thời các tài liệu kỹ thuật, Guanyu đứng đầu trong danh sách tác giả Chen (Chen Guanyu) đã thu hút sự chú ý của toàn Internet - tác giả cốt lõi thực sự là một học sinh cao cấp 17 tuổi học sinh đến từ Thâm Quyến, Quảng Đông.
Theo thông tin được đánh dấu trong phần phụ lục của bài báo, Chen Guanyu, Zhang Yu và Su Jianlin đều là những đồng tác giả đầu tiên có đóng góp ngang nhau, và 34 tác giả tham gia còn lại chưa đánh dấu tư cách này.
Trong số đó, Zhang Yu là nhà phát triển cốt lõi của kiến trúc mô hình hiệu quả của Kimi và Su Jianlin là người đề xuất mã hóa vị trí quay (RoPE).
Điều đáng nói là Chen Quangyu mới chỉ tham gia sâu vào lĩnh vực AI được một năm. Trong giai đoạn đầu, anh nhanh chóng hoàn thiện kiến thức cơ bản và khả năng thực tế về AI bằng cách độc lập nghiên cứu các bài báo tiên tiến và theo dõi các dự án nguồn mở GitHub.
Kỳ nghỉ hè năm ngoái, anh ấy đã đến San Francisco để hoàn thành trải nghiệm thực tập kéo dài 7 tuần. Sau khi trở về Trung Quốc, anh gia nhập nhóm Kimi vào tháng 11 năm ngoái để tham gia thực tập.
Sau khi bài báo được phát hành, Chen Quangyu đã đăng một bài đánh giá về kết quả trong vòng bạn bè của mình, đặc biệt đề cập đến ba tác giả đã có những đóng góp ngang nhau cũng như các đồng nghiệp trong nhóm chịu trách nhiệm mở rộng mô hình và xây dựng cơ sở hạ tầng. Hắn thấp giọng đáp: “Là thành quả của tập thể, không phải tạo ra thần thánh.”
Theo báo cáo, báo cáo kỹ thuật này do nhóm Kimi công bố đề xuất cơ chế Phần dư chú ý (phần dư chú ý) mới nhằm đạt được sự tái thiết mang tính lật đổ của kết nối phần dư truyền thống đã được sử dụng trong lĩnh vực học sâu trong gần mười năm.
Sự đổi mới của Kimi tương đương với việc cài đặt một "bộ lọc thông minh" trên AI, di chuyển cơ chế chú ý của Transformer sang chiều sâu của mô hình, cho phép mỗi lớp tự động lọc thông tin hữu ích trước đó, giảm sự dư thừa và cải thiện hiệu quả truyền tải.