có khoảng 550.000 GPU NVIDIA, nhưng mức sử dụng năng lượng tính toán thực tế chỉ là 11%. Sự tương phản lớn này gần đây đã khiến xAI của Musk trở thành tâm điểm chú ý của dư luận, đồng thời cũng gây ra những nghi ngờ rộng rãi trong ngành về hiệu quả sử dụng năng lượng tính toán của nó. Theo một bản ghi nhớ xAI nội bộ mà phương tiện truyền thông nước ngoài “The Information” thu được, Chủ tịch xAI Michael Nicolls đã thừa nhận với nhóm rằng mức sử dụng dấu phẩy động (MFU) theo mô hình của công ty hiện tại là khoảng 11%.

Ý nghĩa đằng sau con số này rất trực quan: phần cứng về mặt lý thuyết có thể tạo ra 100 bản sao sức mạnh tính toán đào tạo thực tế chỉ có thể tạo ra 11 bản sao. Nichols thẳng thừng nhận xét trong bản ghi nhớ rằng nó “thấp đến mức đáng xấu hổ” và đặt mục tiêu rõ ràng cho nhóm là tăng tỷ lệ sử dụng này lên 50% trong vài tháng tới.

Có thông tin cho rằng xAI hiện có khoảng 550.000 GPU NVIDIA, bao gồm dòng H100 và H200. Mặc dù những GPU này là thế hệ đi sau các sản phẩm mới nhất của Blackwell nhưng quy mô triển khai phần cứng lớn như vậy vẫn để lại ấn tượng sâu sắc trên thị trường.

Cần chỉ ra rằng con số 11% không có nghĩa là 89% GPU hoàn toàn không hoạt động mà là một chỉ số nghiêm ngặt đo lường tỷ lệ thông lượng đào tạo hiệu quả với sức mạnh tính toán cao nhất về mặt lý thuyết của phần cứng.

So với các điểm chuẩn trong ngành, khoảng cách hiệu suất của xAI là đặc biệt rõ ràng. Hiện tại, MFU của đào tạo mô hình lớn cấp sản xuất thường được duy trì trong khoảng từ 35% đến 45%. Trong số đó, Meta và Google dựa vào sự tích lũy lâu dài của các ngăn xếp phần mềm sâu và mức sử dụng GPU của họ có thể đạt khoảng 43% và 46%;

Ngay cả trong thời gian huấn luyện GPT-3 vốn nổi tiếng là "kém hiệu quả", MFU vẫn có thể ổn định trong khoảng từ 21% đến 26%. Mặt khác, 11% của xAI không chỉ thấp hơn nhiều so với mức phổ thông hiện nay của ngành mà thậm chí còn thấp hơn cả thời kỳ lúng túng “xưa” trong lịch sử phát triển sức mạnh tính toán AI.

Điều đáng nói là rất khó phát huy giá trị dù có sức mạnh tính toán hàng đầu. Mấu chốt của xAI không phải là phần cứng mà là những thiếu sót của phần mềm.

Có thông tin cho rằng xAI đã sao chép kế hoạch triển khai tiêu chuẩn của NVIDIA, nhưng ngăn xếp phần mềm, chiến lược song song và tối ưu hóa kỹ thuật mô hình còn chậm hơn nhiều so với tốc độ mở rộng triệt để phần cứng.

Cụ thể, tốc độ đọc bộ nhớ video HBM chậm hơn nhiều so với chip điện toán khiến chip mất nhiều thời gian không tải để chờ dữ liệu; bất kỳ nút thắt nào trong cấu trúc liên kết mạng sẽ được khuếch đại đáng kể dưới yêu cầu đồng bộ hóa của hàng chục nghìn thẻ.

Ngoài ra, phân tích của Lambda và các tổ chức khác đã chỉ ra rằng áp lực bộ nhớ, việc tính toán lại quá trình kích hoạt quá mức và chi phí giao tiếp giữa các GPU do tính song song của tensor gây ra đều là các yếu tố mang tính hệ thống kéo MFU xuống.

Điều đáng chú ý là việc mở rộng cơ sở hạ tầng xAI là một phép lạ của ngành. Siêu máy tính Colossus của nó được chế tạo chỉ trong 122 ngày. Quy mô GPU được mở rộng nhanh chóng trong một khoảng thời gian ngắn. Việc triển khai phần cứng quá mức cũng làm tăng thêm nhược điểm nghiêm trọng của việc tối ưu hóa phần mềm bị chậm trễ.