6 tỷ tham số thử nghiệm mô hình AI: Intel dẫn đầu 2,4 lần, giải pháp thay thế duy nhất cho NVIDIA

MLCommons chính thức công bố kết quả kiểm tra điểm chuẩn hiệu năng của suy luận MLPerf v3.1 cho mô hình ngôn ngữ lớn 6 tỷ tham số và mô hình xử lý ngôn ngữ tự nhiên và thị giác máy tính GPT-J. Bộ xử lý CPU Intel và bộ tăng tốc AI hoạt động tốt và khá cạnh tranh trong khả năng suy luận AI.

Kết quả đào tạo MLCommonsAI và kết quả kiểm tra điểm chuẩn hiệu suất HuggingFace được tiết lộ trước đó vào tháng 6 cho thấy bộ tăng tốc Intel Gaudi2AI có hiệu suất ngôn ngữ hình ảnh tiên tiến. Về mô hình ngôn ngữ, hiệu năng hoàn toàn có thể vượt qua bộ tăng tốc NVIDIAH100. là giải pháp thay thế khả thi duy nhất cho NVIDIAH100/A100 . Kết quả mới nhất một lần nữa đã xác minh điều này.

GPT-J, GPT-J-99, truy vấn máy chủ GPT-J-99.9 của bộ tăng tốc Intel Gaudi2 và hiệu suất suy luận mẫu ngoại tuyến lần lượt là 78,58 lần/giây và 84,08 lần/giây.

So với các sản phẩm cạnh tranh, H100 chỉ có lợi thế về hiệu suất gấp 1,09 lần (máy chủ) và 1,28 lần (ngoại tuyến) so với Gaudi2. Ưu điểm của Gaudi2 so với A100 là hiệu suất gấp 2,4 lần (máy chủ) và 2 lần (ngoại tuyến).

Điều đáng nói là kết quả được gửi bởi Gaudi2 sử dụng loại dữ liệu FP8, với độ chính xác 99,9%.

Phần mềm Gaudi2 được cập nhật 6-8 tuần một lần và sẽ tiếp tục cải thiện hiệu suất điểm chuẩn MLPerf và mở rộng phạm vi mô hình.

Đồng thời, Intel đã gửi 7 điểm chuẩn suy luận dựa trên bộ xử lý Xeon thế hệ thứ tư có thể mở rộng của SapphireRapids, bao gồm cả mẫu GPT-J.

Kết quả cho thấy, bao gồm các mô hình dịch thuật hình ảnh, ngôn ngữ, giọng nói và âm thanh, cũng như mô hình đề xuất học sâu DLRMv2 lớn hơn và mô hình ChatGPT-J, Xeon thế hệ thứ tư hoạt động rất tốt khi xử lý khối lượng công việc AI nói chung.

Tính đến thời điểm hiện tại, Intel vẫn là nhà cung cấp duy nhất gửi kết quả CPU công khai bằng cách sử dụng phần mềm hệ sinh thái học sâu tiêu chuẩn ngành.

Theo kết quả mới nhất, sử dụng GPT-J để thực hiện bản tóm tắt 100 từ của một thông cáo báo chí khoảng 1000-1500 từ. Xeon thế hệ thứ tư có thể hoàn thành hai đoạn văn mỗi giây ở chế độ ngoại tuyến và một đoạn văn mỗi giây ở chế độ máy chủ thời gian thực.

Ngoài ra, Intel lần đầu tiên đã gửi kết quả thử nghiệm MLPerf của bộ xử lý Xeon CPUMax , tích hợp bộ nhớ băng thông cao lên tới 64GB HBM3, là CPU duy nhất có thể đạt được độ chính xác 99,9% cho GPT-J, vốn là rất thích hợp cho các ứng dụng có yêu cầu độ chính xác cực cao.

Truy cập trang mua hàng:

Cửa hàng hàng đầu của Intel