Các nhà nghiên cứu của NVIDIA đã ra mắt công nghệ mới, KVTC (Mã hóa chuyển đổi bộ đệm KV), có thể giảm mức sử dụng bộ nhớ của các mô hình ngôn ngữ lớn (LLM) để theo dõi lịch sử hội thoại lên tới 20 lần mà không cần sửa đổi mô hình. Đột phá này được kỳ vọng sẽ giải quyết được vấn đề thiếu bộ nhớ trong quá trình suy luận hội thoại kéo dài của các mô hình ngôn ngữ lớn. giảm đáng kể chi phí phần cứng của các doanh nghiệp sử dụng AI, đồng thời rút ngắn thời gian để mô hình tạo phản hồi lần đầu tiên lên tới 8 lần.

Nói một cách đơn giản, cốt lõi của công nghệ KVTC là nén bộ đệm KV đằng sau các mô hình ngôn ngữ lớn - nó tương đương với "bộ nhớ ngắn hạn" của mô hình AI . Chúng ta có thể coi bộ đệm KV giống như việc học sinh ghi chú: khi mô hình xử lý đoạn hội thoại, nó sẽ ghi lại thông tin chính (tức là Khóa và Giá trị). Lần tiếp theo khi phản hồi được tạo ra, không cần phải tính toán lại toàn bộ đoạn hội thoại từ đầu và tốc độ phản hồi có thể được cải thiện đáng kể.

Nhưng vấn đề là cuộc trò chuyện càng dài thì "ghi chú" sẽ càng lớn, thậm chí còn mở rộng lên vài GB, chiếm nhiều bộ nhớ GPU nhưng lại làm chậm mô hình và hạn chế khả năng xử lý.

Kỹ sư Deep Learning cấp cao của NVIDIA Adrian Lancucki cho biết: "Khi suy ra các mô hình ngôn ngữ lớn, nút thắt hiệu suất thường không nằm ở sức mạnh tính toán mà ở bộ nhớ GPU." Những bộ đệm KV tạm thời không được sử dụng này sẽ luôn chiếm tài nguyên GPU quý giá, buộc hệ thống phải chuyển chúng sang bộ nhớ CPU hoặc đĩa cứng. Điều này không chỉ làm tăng gánh nặng truyền dữ liệu mà còn có thể gây ra các vấn đề về độ trễ mới. Những chi phí bổ sung này cuối cùng sẽ được phản ánh trong phí sử dụng của doanh nghiệp.

So với công nghệ nén hiện có, KVTC không có những hạn chế rõ ràng. Nó dựa trên ý tưởng nén hình ảnh JPEG quen thuộc và đạt được khả năng nén hiệu quả thông qua ba bước đơn giản: "phân tích thành phần chính, lượng tử hóa thích ứng và mã hóa entropy".

Điều tiện lợi hơn là công nghệ này không cần thay đổi cài đặt cốt lõi và mã của model. Đây là một thiết kế “không xâm phạm” và có thể được các doanh nghiệp triển khai nhanh chóng. Ưu điểm cốt lõi của nó là có thể nắm bắt các đặc điểm "dữ liệu có liên quan cao" của bộ đệm KV, loại bỏ dữ liệu dư thừa trong khi vẫn giữ lại thông tin quan trọng và giải nén dữ liệu theo khối và từng lớp mà không ảnh hưởng đến phản hồi thời gian thực của mô hình.

Nhiều vòng thử nghiệm cho thấy hiệu suất của KVTC vượt xa các phương pháp chính thống hiện có. Trên nhiều mẫu máy có thông số từ 1,5 tỷ đến 70 tỷ (bao gồm dòng Llama 3, R1-Qwen 2.5, v.v.), ngay cả khi bộ nhớ được nén 20 lần, độ chính xác của mô hình gần như không bị ảnh hưởng, tổn thất dưới 1%, gần giống như không nén; trong khi các phương pháp nén truyền thống chỉ nén 5 lần thì độ chính xác sẽ giảm đi đáng kể.

Ngoài ra, khi xử lý 8.000 lời nhắc Mã thông báo trên GPU H100, phải mất 3 giây để tạo phản hồi đầu tiên mà không cần sử dụng KVTC và chỉ 380 mili giây sau khi sử dụng, nhanh hơn gấp 8 lần.

Cần lưu ý rằng KVTC phù hợp hơn với các cuộc đối thoại dài và các tình huống tương tác nhiều vòng, chẳng hạn như trợ lý lập trình, lý luận tác nhân lặp, v.v. Nếu đoạn hội thoại ngắn thì khó phát huy giá trị nén của nó.

Hiện tại, NVIDIA đang có kế hoạch tích hợp công nghệ này vào trình quản lý khối KV của khung Dynamo, giúp nó tương thích với các công cụ suy luận nguồn mở chính thống như vLLM.

Những người trong ngành tin rằng khi thời lượng hội thoại mà các mô hình ngôn ngữ lớn có thể xử lý tiếp tục tăng, các công nghệ nén tiêu chuẩn hóa như KVTC có thể trở nên phổ biến như nén video trong tương lai, giúp AI được ứng dụng rộng rãi hơn.