Một bức ảnh để hiểu khoảng cách giữa DeepSeek V4 và AI hàng đầu Hoa Kỳ: 8 tháng sau

Quick Technology đưa tin vào ngày 3 tháng 5 rằng các mẫu lớn dòng DeepSeek V4 đã chính thức được phát hành vào ngày 24 tháng 4. Đã 15 tháng kể từ bản cập nhật DeepSeek R1 năm ngoái. Hiệu suất của V4 cũng đã gây ra các cuộc thảo luận trong và ngoài nước, và người Mỹ cũng rất lo ngại.

Đã có nhiều thử nghiệm đánh giá khả năng của DeepSeek V4, Một báo cáo nghiên cứu trước đây do 3 nhà nghiên cứu cao cấp tại Hội đồng Quan hệ Đối ngoại Hoa Kỳ tổ chức cho thấy nó tụt hậu so với các mẫu lớn hàng đầu của Mỹ khoảng 7 tháng.

Hiện Trung tâm Tiêu chuẩn và Đổi mới Trí tuệ Nhân tạo (CAISI), một công ty con của Viện Tiêu chuẩn và Công nghệ Quốc gia (NIST), cũng đã đến để đánh giá DeepSeek V4. Kết luận của họ là DeepSeek V4 tụt hậu so với Hoa Kỳ khoảng 8 tháng, tương đương với khoảng cách trước đó.

Trong kết quả đánh giá năng lực AI của mình, DeepSeek V4 đạt 800 điểm, mạnh nhất hiện nay là GPT-5.5 với số điểm trên 1200 điểm, GPT-5.4 và Opus 4.6 cũng trên 1000 điểm.

Hiệu suất tổng thể của DeepSeek V4 tương tự như GPT-5 8 tháng trước, nhưng các quan chức của DeepSeek trước đây tin rằng nó giống với GPT-5.4 trong một báo cáo phát hành.

Tuy nhiên, CAISI cũng thừa nhận rằng DeepSeek V4 là mô hình AI lớn mạnh nhất ở Trung Quốc mà họ đã đánh giá và rất mạnh trong 9 bài kiểm tra ở 5 lĩnh vực mạng, công nghệ phần mềm, khoa học tự nhiên, lý luận trừu tượng và toán học.

Quan trọng hơn, DeepSeek V4 tiết kiệm chi phí hơn. Thậm chí so với mẫu lớn GPT-5.4 mini tiết kiệm chi phí nhất ở Hoa Kỳ, DeepSeek V4 có chi phí thử nghiệm tốt hơn ở 4 trên 7 điểm chuẩn, cao hơn từ 41% đến 53%.