Google đã ban hành một bài báo "làm rõ kỹ thuật" khác làm sập kho lưu trữ toàn cầu và dính vào cuộc tranh cãi

Ngày 1/4, sau gần một tuần im hơi lặng tiếng, nhóm nghiên cứu thuật toán nén gây tranh cãi TurboQuant của Google cuối cùng cũng đã có phản hồi. Tuy nhiên, việc "làm rõ kỹ thuật" mới nhất này dường như chưa giải quyết được tranh cãi. Đáp lại cáo buộc về "sự tương đồng về công nghệ cốt lõi", Google lập luận rằng xoay vòng ngẫu nhiên là một công nghệ tiêu chuẩn và tin rằng lỗi trong điểm chuẩn thử nghiệm là "không quan trọng" đối với thực tế.

Vào tuần cuối cùng của tháng 3, bài báo này, được blog chính thức của Google công bố rộng rãi, đã một tay đánh sập cổ phiếu chip bộ nhớ toàn cầu. Giá trị thị trường của Micron, SK Hynix, Samsung Electronics, v.v. đã bốc hơi hơn 90 tỷ USD. Bài viết chỉ ra rằng TurboQuant, một thuật toán nén, có thể giảm dung lượng bộ nhớ đệm KV của các mô hình ngôn ngữ lớn ít nhất 6 lần, tăng tốc độ lên tới 8 lần và đạt được độ chính xác bằng 0.

Sự hoảng loạn ở Phố Wall là nếu phần mềm có thể nén yêu cầu bộ nhớ AI lên 6 lần thì logic tăng trưởng của phần cứng chip sẽ phải được viết lại.

Tuy nhiên, sự đảo ngược diễn ra nhanh chóng. Vào ngày 27 tháng 3, Gao Jianyang, tác giả của RaBitQ và là nghiên cứu sinh sau tiến sĩ tại ETH Zurich, đã xuất bản một bài báo dài 10.000 từ về Zhihu, cáo buộc nhóm Google có vấn đề học thuật mang tính hệ thống. Dư luận nhanh chóng chuyển sang đặt câu hỏi về hành vi sai trái trong học tập của Google.

Ngành công nghiệp nhìn chung tin rằng RaBitQ đã dẫn đầu trong việc đề xuất một phương pháp ban đầu và TurboQuant đã tối ưu hóa nó dựa trên nó, nhưng lại không đưa ra những trích dẫn và sự tôn trọng xứng đáng, thậm chí còn chê bai nó một cách không công bằng.

Vào ngày 1 tháng 4, trước những cáo buộc từ bên ngoài, Majid Daliri, tác giả thứ hai của bài báo, cuối cùng đã thay mặt nhóm đưa ra bản "làm rõ kỹ thuật" bốn điểm trên nền tảng OpenReview.

Về tính mới kỹ thuật cốt lõi, Google lập luận rằng phương pháp cốt lõi của TurboQuant không bắt nguồn từ RaBitQ. Bởi vì “xoay ngẫu nhiên là một kỹ thuật tiêu chuẩn, phổ biến trong tài liệu định lượng” và đã được sử dụng rộng rãi từ rất lâu trước khi RaBitQ xuất hiện. Sự đổi mới thực sự của TurboQuant là nguồn gốc của phân bố tọa độ xoay.

Nhưng quy tắc trong giới học thuật là: nếu ai đó là người đầu tiên sử dụng "bánh xe" trên "ô tô" và chế tạo một chiếc ô tô hoàn chỉnh, thì những người chế tạo ô tô tiếp theo sẽ phải trích dẫn và cảm ơn theo nghi thức học thuật cơ bản. Google hạ thấp thành tích của những người đi trước là kiến thức về ngành, điều này tương đương với việc hạ thấp sự đóng góp của những người tiên phong.

Thứ hai, liên quan đến cáo buộc chê bai lý thuyết RaBitQ là "dưới mức tối ưu", tác giả bài báo thừa nhận rằng đó là do ông không đọc kỹ phụ lục của bên kia và bỏ sót một yếu tố không đổi nên đã vội vàng đưa ra kết luận, "khiến chúng tôi ban đầu mô tả một cách trung thực phương pháp này là dưới mức tối ưu". Bây giờ sau khi nghiên cứu cẩn thận, người ta thấy rằng RaBitQ thực sự là tối ưu và nhóm đang cập nhật bản thảo TurboQuant.

Tuy nhiên, trong một bài báo hội nghị hàng đầu, việc đánh giá tiêu cực lý thuyết cốt lõi của một đồng nghiệp là dựa trên việc "không đọc rõ phụ lục". Sức mạnh của lời giải thích này chắc chắn bị nghi ngờ.

Ở điểm thứ ba, trước cáo buộc "trói tay chân đối thủ trước khi đua", Majid Daliri đã trực tiếp chỉ ra rằng ngay cả khi việc so sánh thời gian chạy với RaBitQ bị bỏ qua hoàn toàn, tác động khoa học và tính hợp lệ của bài báo về cơ bản vẫn không thay đổi. Bởi vì đóng góp chính của TurboQuant là sự đánh đổi chất lượng nén chứ không phải là những khả năng tăng tốc cụ thể.

Gao Jianyang trước đây đã tiết lộ trong một bức thư ngỏ rằng nhóm Google đã sử dụng CPU lõi đơn và tắt đa luồng khi kiểm tra RaBitQ và sử dụng GPU Nvidia A100 khi kiểm tra TurboQuant. Mặc dù nhóm tuyên bố rằng so sánh tốc độ không phải là vấn đề cốt lõi nhưng bài báo vẫn liệt kê tốc độ là một trong những điểm bán hàng chính.

Cuối cùng, Google đã ám chỉ “động cơ thầm kín” của bên kia trong phản hồi của mình, chỉ ra rằng bài báo đã được xuất bản trên arXiv từ tháng 4 năm 2025. Bên kia có gần một năm để đặt câu hỏi thông qua các kênh học thuật, nhưng chỉ đợi cho đến khi bài báo nhận được sự quan tâm rộng rãi trước khi gây ra một vụ ồn ào lớn.

Theo phản hồi trước đó của Gao Jianyang, hai bên đã liên lạc riêng qua email ngay từ tháng 5 năm 2025 và cũng đã liên hệ với ban tổ chức ICLR vào tháng 11 năm 2025, nhưng không nhận được phản hồi hiệu quả. Mãi cho đến khi Google đẩy bài báo lên hàng chục triệu lượt hiển thị thông qua các kênh chính thức thì việc chỉnh sửa học thuật mới trở nên cấp thiết.

Trên OpenReview, một số nhà nghiên cứu nhận xét rằng đây là một vấn đề nghiêm trọng cần được quan tâm nhiều hơn. "Thật khó chịu khi thấy những người thực hiện công việc nền tảng thực tế bị phớt lờ trong khi các tổ chức lớn, có ảnh hưởng thổi phồng kết quả của họ. Tại thời điểm này, nó giống một cuộc chạy đua PR với các ông lớn hơn.

Đồng thời, những người đánh giá bài báo TurboQuant cũng đã đưa ra bày tỏ thái độ của họ, nói rằng họ đã đánh giá cao bài báo này nhờ phân tích lý thuyết và kết quả thử nghiệm của nó.

“Tuy nhiên, tôi cũng nói rõ rằng cả RaBitQ và TurboQuant đều sử dụng chế độ xoay ngẫu nhiên và yêu cầu tác giả của TurboQuant so sánh cài đặt giữa TurboQuant và RaBitQ. Người đánh giá đã tuyên bố rằng cách thực hành học thuật đúng đắn là thảo luận sâu về sự khác biệt giữa RaBitQ và TurboQuant trong bài báo, nhưng "ngạc nhiên khi thấy điều đó" RaBitQ chỉ được đề cập một lần trong phần thử nghiệm của bài viết chính" trong quá trình đánh giá.

Không thể phủ nhận TurboQuant có tiềm năng thương mại ở cấp độ kỹ thuật. Một chuyên gia trí tuệ nhân tạo đã phân tích trên Zhihu rằng trong các kịch bản suy luận mô hình lớn, việc sử dụng bộ nhớ đệm KV xác định trực tiếp số lượng yêu cầu mà một thẻ có thể xử lý đồng thời và là chỉ báo kinh tế cốt lõi cho các nhà cung cấp dịch vụ suy luận. Đối với cùng một thẻ, nếu tăng đồng thời lên 6 lần, về mặt lý thuyết, chi phí lý luận cho mỗi yêu cầu có thể giảm xuống còn 1/6 so với ban đầu. Đối với các nhà cung cấp AI xử lý hàng tỷ lệnh gọi API mỗi ngày, đây sẽ là một công cụ cắt giảm chi phí khổng lồ, đó là lý do khiến thị trường chứng khoán hỗn loạn.

Bài báo của Google sẽ được xuất bản tại hội nghị máy học hàng đầu ICLR 2026 vào cuối tháng 4, nhưng có vẻ như nhóm phải vượt qua ngưỡng tranh cãi học thuật này trước tiên. Cơn bão cuối cùng sẽ kết thúc như thế nào vẫn còn phải xem.