Lao Huang bùng nổ trong đêm khuya: Chip AI mạnh nhất thế giới H200 ra mắt gây sốc, hiệu năng tăng vọt 90%

Nhịp điệu của Nvidia ngày càng đáng sợ. Vừa rồi, Lao Huang lại một lần nữa bùng nổ vào đêm khuya - cho ra mắt chip AI mạnh nhất thế giới H200! So với H100 overlord trước đây, hiệu suất của H200 đã được cải thiện trực tiếp từ 60% đến 90%. Không chỉ vậy, hai con chip còn tương thích với nhau. Điều này có nghĩa là các doanh nghiệp sử dụng mô hình đào tạo/suy luận H100 có thể chuyển đổi liền mạch sang H200 mới nhất.

Các công ty AI trên toàn thế giới đang trong tình trạng thiếu năng lượng tính toán và GPU của Nvidia rất khó có được. NVIDIA trước đây cũng đã tuyên bố rằng nhịp điệu kiến trúc phát hành hai năm một lần sẽ được thay đổi thành phát hành mỗi năm một lần.

Ngay khi NVIDIA thông báo tin này, Các công ty AI đang tranh giành để tìm thêm H100.

Con chip cao cấp của Nvidia có giá trị đến mức chúng trở thành tài sản thế chấp cho các khoản vay.

Ai sở hữu H100 là người được nhiều người chú ý nhất Thung lũng Silicon

Đối với hệ thống H200, Nvidia cho biết dự kiến sẽ có mặt trên thị trường vào quý 2 năm sau.

Cũng trong năm tới, NVIDIA cũng sẽ phát hành B100 dựa trên kiến trúc Blackwell và có kế hoạch tăng gấp ba lần sản lượng H100 vào năm 2024, với mục tiêu sản xuất hơn 2 triệu chiếc H100.

Tại buổi họp báo, NVIDIA thậm chí không đề cập đến bất kỳ đối thủ cạnh tranh nào mà liên tục nhấn mạnh rằng "Nền tảng siêu máy tính AI của NVIDIA có thể giải quyết một số thách thức quan trọng nhất của thế giới nhanh hơn."

Với sự bùng nổ của AI thế hệ, nhu cầu sẽ chỉ lớn hơn và điều này không bao gồm H200. Giành được cây gai dầu, Lão Hoàng thực sự đã thắng được cây gai dầu!

Bộ nhớ video lớn 141GB, hiệu suất gấp đôi!

H200 sẽ tiếp thêm sức mạnh cho nền tảng điện toán AI hàng đầu thế giới.

Nó dựa trên kiến trúc Hopper và được trang bị GPU NVIDIA H200 TensorCore cùng bộ nhớ đồ họa tiên tiến, do đó, nó có thể xử lý dữ liệu lớn cho khối lượng công việc điện toán hiệu suất cao và AI tổng hợp.

NVIDIA H200 là GPU đầu tiên sử dụng HBM3e và có bộ nhớ video lên tới 141GB.

So với A100, H200 đã tăng gần gấp đôi công suất và tăng băng thông lên 2,4 lần. So với H100, băng thông của H200 đã tăng từ 3,35TB/s lên 4,8TB/s.

Ian Buck, phó chủ tịch phụ trách điện toán hiệu suất cao và quy mô lớn của NVIDIA, cho biết -

Để sử dụng trí tuệ nhân tạo tổng hợp và các ứng dụng điện toán hiệu suất cao để tạo ra trí thông minh, bộ nhớ GPU lớn và nhanh phải được sử dụng để xử lý dữ liệu lớn ở tốc độ cao và hiệu quả. Với H200, nền tảng siêu máy tính trí tuệ nhân tạo toàn diện hàng đầu trong ngành sẽ trở nên nhanh hơn và một số thách thức quan trọng nhất của thế giới có thể được giải quyết.

Tốc độ suy luận Llama2 tăng gần 100%TAGP H102

So với thế hệ trước kiến trúc, kiến trúc Hopper đã đạt được bước nhảy vọt về hiệu suất chưa từng có và việc nâng cấp liên tục H100 cùng thư viện mã nguồn mở mạnh mẽ của TensorRT-LLM đang không ngừng cải thiện các tiêu chuẩn hiệu suất.

Việc phát hành H200 đã đưa hiệu suất nhảy vọt lên một tầm cao mới, trực tiếp khiến tốc độ suy luận của mẫu Llama270B gần gấp đôi so với H100!

H200 dựa trên kiến trúc Hopper giống như H100. Điều này có nghĩa là ngoài các tính năng bộ nhớ mới, H200 còn có các tính năng tương tự như H100, chẳng hạn như TransformerEngine, có thể tăng tốc LLM và các mô hình deep learning khác dựa trên kiến trúc Transformer.

HGXH200 áp dụng công nghệ kết nối tốc độ cao NVIDIA NVLink và NVSwitch. HGXH200 8 chiều có thể cung cấp hơn 32 Petaflop sức mạnh tính toán học sâu FP8 và 1,1TB băng thông bộ nhớ cực cao.

Khi sử dụng H200 thay vì H100 và sử dụng kết hợp với NVIDIA GraceCPU, nó sẽ tạo thành siêu chip GH200GraceHopper mạnh mẽ hơn - một mô-đun điện toán được thiết kế cho các ứng dụng HPC và AI quy mô lớn.

Chúng ta hãy xem xét kỹ hơn sự cải thiện hiệu suất của H200 được phản ánh như thế nào so với H100.

Trước hết, sự cải thiện hiệu suất của H200 chủ yếu thể hiện ở hiệu suất suy luận của các mô hình lớn.

Như đã đề cập ở trên, khi xử lý các mô hình ngôn ngữ lớn như Llama2, tốc độ suy luận của H200 gần gấp đôi so với H100.

Vì bản cập nhật lõi máy tính không lớn nên nếu chúng ta lấy việc đào tạo GPT-3 với kích thước 175B làm ví dụ, mức cải thiện hiệu suất sẽ vào khoảng 10%.

Băng thông bộ nhớ video rất quan trọng đối với các ứng dụng điện toán hiệu năng cao (HPC) vì nó cho phép truyền dữ liệu nhanh hơn và giảm tắc nghẽn khi xử lý cho các tác vụ phức tạp.

Đối với các ứng dụng HPC sử dụng nhiều bộ nhớ như mô phỏng, nghiên cứu khoa học và trí tuệ nhân tạo, băng thông bộ nhớ cao hơn của H200 đảm bảo khả năng truy cập và thao tác dữ liệu hiệu quả, với thời gian đạt kết quả nhanh hơn tới 110 lần so với CPU.

So với H100, H200 cũng cải thiện hơn 20% trong việc xử lý các ứng dụng điện toán hiệu năng cao.

Về mức tiêu thụ năng lượng suy luận, điều rất quan trọng đối với người dùng, H200 được giảm trực tiếp một nửa so với H100.

Bằng cách này, H200 có thể giảm đáng kể chi phí sử dụng của người dùng và tiếp tục cho phép người dùng “mua nhiều hơn, tiết kiệm nhiều hơn”!

Tháng trước, phương tiện truyền thông nước ngoài SemiAnalysis đã tiết lộ lộ trình phần cứng cho NVIDIA trong vài năm tới, bao gồm các GPU H200, B100 và "X100" rất được mong đợi.

Các quan chức của NVIDIA cũng đã công bố lộ trình sản phẩm chính thức, sẽ sử dụng cùng một kiến trúc để thiết kế ba con chip và sẽ tiếp tục ra mắt B100 và X100 vào năm tới và năm sau.

B100, hiệu suất là vô tậnTAGP H38

Lần này, NVIDIA công bố H200 và B100 mới trong một thông báo chính thức, trực tiếp tăng gấp đôi tốc độ cập nhật chip trung tâm dữ liệu trong hai năm qua.

Lấy GPT-3, loại GPT-3 suy ra 175 tỷ tham số, làm ví dụ. H100 vừa ra mắt năm nay mạnh hơn A100 thế hệ trước 11 lần. H200 ra mắt vào năm sau có cải tiến hơn 60% so với H100, hiệu năng của B100 về sau còn ấn tượng hơn nữa.

Tại thời điểm này, H100 đã trở thành GPU "hàng đầu" ngắn nhất còn tồn tại.

Nếu H100 hiện là "vàng" của làng công nghệ thì NVIDIA đã thành công tạo ra "bạch kim" và "kim cương".

H200 thật may mắn, một thế hệ trung tâm siêu máy tính AI mới đang xuất hiện với số lượng lớn

Các dịch vụ đám mây Ngoài CoreWeave, Lambda và Vultr do NVIDIA, Amazon Cloud Technology, Google Cloud đầu tư, Microsoft Azure và Cơ sở hạ tầng đám mây Oracle sẽ trở thành nhà cung cấp đầu tiên triển khai các phiên bản dựa trên H200.

Ngoài ra, với sự hỗ trợ của H200 mới, siêu chip GH200 cũng sẽ cung cấp tổng cộng khoảng 200 Exaflop sức mạnh tính toán AI cho các trung tâm siêu máy tính trên toàn thế giới nhằm thúc đẩy đổi mới khoa học.

Tại hội nghị SC23, nhiều trung tâm siêu máy tính hàng đầu đã thông báo rằng họ sẽ sử dụng hệ thống GH200 để chế tạo siêu máy tính của riêng mình.

Trung tâm siêu máy tính Urich ở Đức sẽ sử dụng siêu chip GH200 trong siêu máy tính JUPITER.

Siêu máy tính này sẽ là siêu máy tính quy mô cực lớn đầu tiên của Châu Âu và là một phần của Cam kết chung về Máy tính Hiệu suất Cao của Châu Âu (EuroHPCJointUndertake).

Siêu máy tính Jupiter dựa trên BullSequanaXH3000 của Eviden và áp dụng kiến trúc làm mát hoàn toàn bằng chất lỏng.

Nó có tổng cộng 24.000 siêu chip NVIDIA GH200 GraceHopper được kết nối với nhau thông qua Quantum-2 Infiniband.

Mỗi GraceCPU chứa 288 lõi Neoverse và CPU của Jupiter có gần 7 triệu lõi ARM.

Nó cung cấp 93Exaflop sức mạnh tính toán AI có độ chính xác thấp và 1Exaflop sức mạnh tính toán AI có độ chính xác cao (FP64). Siêu máy tính dự kiến sẽ được lắp đặt vào năm 2024.

Trung tâm Điện toán Hiệu năng Cao Tiên tiến Nhật Bản, do Đại học Tsukuba và Đại học Tokyo đồng thành lập, sẽ sử dụng siêu chip NVIDIA GH200 GraceHopper trong siêu máy tính thế hệ tiếp theo.

Là một trong những trung tâm siêu máy tính lớn nhất thế giới, Trung tâm Máy tính Nâng cao Texas cũng sẽ sử dụng GH200 của NVIDIA để xây dựng siêu máy tính Vista.

Trung tâm Ứng dụng Siêu máy tính Quốc gia tại Đại học Illinois tại Urbana-Champaign sẽ sử dụng siêu chip NVIDIA GH200 để xây dựng siêu máy tính DeltaAI của họ, tăng gấp ba lần sức mạnh tính toán AI.

Ngoài ra, Đại học Bristol sẽ chịu trách nhiệm xây dựng siêu máy tính mạnh nhất Vương quốc Anh, Isambard-AI, với sự tài trợ từ chính phủ Anh - siêu máy tính này sẽ được trang bị hơn 5.000 siêu chip NVIDIA GH200, cung cấp 21 Exaflops sức mạnh tính toán AI.

NVIDIA, AMD, Intel: Ba gã khổng lồ tranh giành chip AI

Cuộc cạnh tranh GPU cũng đã bước vào cơn sốt.

Đối mặt với H200, kế hoạch của đối thủ cũ AMD là sử dụng InstinctMI300X sát thủ lớn sắp ra mắt để cải thiện hiệu suất bộ nhớ video.

MI300X sẽ được trang bị HBM3 192GB và băng thông bộ nhớ 5,2TB/s, giúp nó vượt xa H200 về dung lượng và băng thông.

Intel cũng đang chuẩn bị và có kế hoạch tăng dung lượng HBM của chip GaudiAI, cho biết chip GaudiAI thế hệ thứ ba ra mắt vào năm tới sẽ tăng từ 96GBHBM2e của thế hệ trước lên 144GB.

Dung lượng HBM2 hiện tại của dòng Intel Max lên tới 128GB. Intel có kế hoạch tăng công suất chip dòng Max trong một số thế hệ sản phẩm tiếp theo.

H200 chưa biết giá

Vậy H200 giá bao nhiêu? Nvidia vẫn chưa công bố nó.

Bạn phải biết rằng giá của một chiếc H100 là từ 25.000 USD đến 40.000 USD. Việc đào tạo một mô hình AI cần ít nhất hàng nghìn đô la.

Trước đây, bức ảnh "Chúng ta cần bao nhiêu GPU" này đã được lan truyền rộng rãi trong cộng đồng AI.

GPT-4 được huấn luyện trên khoảng 10.000-25.000 khối A100; Meta yêu cầu khoảng 21.000 khối A100; StableAI sử dụng khoảng 5.000 khối A100; Huấn luyện Falcon-40B sử dụng 384 khối A100.

Theo Musk, GPT-5 có thể yêu cầu 30.000-50.000 khối H100. Báo giá của Morgan Stanley là 25.000 GPU.

SamAltman từ chối đào tạo GPT-5, nhưng đề cập rằng "OpenAI đang thiếu GPU nghiêm trọng và càng ít người sử dụng sản phẩm của chúng tôi thì càng tốt."

Điều chúng ta có thể biết là khi H200 ra mắt vào quý 2 năm sau chắc chắn sẽ gây ra một cơn bão mới.