Khối lượng tham số DeepSeek V4 dự kiến đạt 1,6 nghìn tỷ, cao hơn 60% so với dự kiến

Chỉ còn vài ngày nữa là đến cuối tháng 4, việc ra mắt mẫu lớn DeepSeek V4 đã chạm đến trái tim mọi người. Hôm qua, các nhà nghiên cứu của công ty đã bất ngờ cập nhật thư viện toán tử DeepGEMM, được coi là tiền thân cho việc phát hành V4. Tuy nhiên, rõ ràng họ đã đoán trước được phản ứng từ thế giới bên ngoài và bổ sung thêm lời giải thích sau khi cập nhật. nhấn mạnh rằng bản cập nhật này chỉ liên quan đến việc phát triển DeepGEMM và không liên quan gì đến việc phát hành mô hình nội bộ. có nghĩa là mọi người không nên suy nghĩ quá nhiều. Điều này không có nghĩa là V4 sắp được ra mắt.

Nhưng tuyên bố này càng được đưa ra thì càng có nhiều người quan tâm đến DeepSeek V4, bởi vì có rất nhiều điểm nổi bật trong làn sóng cập nhật DeepGEMM này và nó không thể liên quan đến mẫu lớn V4.

Ngoài việc hỗ trợ toán tử kết hợp FP8_FP4 và hỗ trợ tối ưu hóa cho NVIDIA Blackwell, bản cập nhật này chủ yếu bao gồm Mega MoE và HyperConnection. Mega MoE có thể mang lại sự nâng cấp lớn cho kiến trúc MoE.

Mega MoE có nhiều lợi ích và có rất nhiều lời giải thích trên Internet. Phân tích của Gemini cho thấy số lượng chuyên gia được kích hoạt ở V4 sẽ cao hơn đáng kể so với 256 ở V3 và có thể lên tới hàng nghìn. Điều này rõ ràng sẽ cải thiện đáng kể hiệu suất của V4, đồng thời duy trì tính linh hoạt và không có nhu cầu quá cao về sức mạnh tính toán và bộ nhớ video.

Quan trọng hơn, bản cập nhật này của DeepGEMM cũng gợi ý về mẫu lớn V4. Cư dân mạng cho rằng MoE một lớp là khoảng 25,37B. Nếu vẫn có 60 lớp thì V4 rất có thể sẽ là mô hình lớn 1,6T, hoặc thậm chí tệ hơn, nó sẽ là mô hình lớn 48 lớp 1,25T.

So với những tin đồn trước đây rằng V4 có 1 nghìn tỷ thông số, khối lượng thông số 1,6T có nghĩa là cao hơn 60% so với mong đợi trước đó nên hiệu suất rất đáng mong đợi.

Trong trường hợp không nhận được 1.6T, khối lượng tham số 1.25T sẽ tăng gấp đôi so với 670 tỷ tham số của V3 hiện tại. Chúng tôi vẫn có thể mong đợi buổi biểu diễn. Xét cho cùng, nếu công nghệ Mega MoE có thể kích hoạt lại hàng nghìn chuyên gia thì đó chắc chắn sẽ là một bước chuyển mình và là sự kiện quan trọng trong việc phát triển các mô hình lớn về kiến trúc MoE.