Nói đến kỹ năng trình diễn, có lẽ không có CEO nào ở Thung lũng Silicon có thể so sánh được với Jen-Hsun Huang. Năm ngoái, Huang Renxun đã đề xuất một kế hoạch với các nhà cung cấp điện toán đám mây như Microsoft, Google và Amazon: Các nhà cung cấp này có nhiều máy chủ được trang bị GPU NVIDIA và NVIDIA sẽ thuê những máy chủ này, sau đó để các kỹ sư NVIDIA "tối ưu hóa" chúng, sau đó cho các công ty AI thông thường dưới danh nghĩa NVIDIA thuê để kiếm phần chênh lệch.
Truy cập trang mua hàng:
JD NVIDIA Tổng hợp các dòng sản phẩm
Nói một cách đơn giản, trước đây Microsoft sẽ trực tiếp bán dịch vụ đám mây cho các công ty vừa và nhỏ, nhưng giờ đây NVIDIA tham gia với tư cách là người trung gian. Tất nhiên, theo tuyên bố chính thức của Nvidia, động thái này là để “chỉ cho các nhà cung cấp điện toán đám mây cách chính xác để định cấu hình GPU trong trung tâm dữ liệu” [1].
Máy chủ vẫn là máy chủ đó nhưng sau khi NVIDIA "tối ưu hóa" thì khách hàng đã được tối ưu hóa từ Microsoft sang NVIDIA. Nhưng đối với một đề xuất đáng kinh ngạc như vậy, tất cả các nhà cung cấp điện toán đám mây lớn ngoại trừ Amazon đều thực sự đồng ý.
Tháng 3 năm 2023, NVIDIA chính thức ra mắt dịch vụ điện toán đám mây DGXCloud. Thực tế đã chứng minh rằng sau khi được các kỹ sư NVIDIA tối ưu hóa, DGXCloud hoạt động tốt hơn khi đào tạo các mô hình lớn; trên cơ sở này, NVIDIA cũng đưa ra một ngoại lệ cho phép cho thuê ngắn hạn. Chỉ trong nửa năm, NVIDIA đã giành được những khách hàng lớn như hãng phần mềm ServiceNow.
Lý do thực sự khiến các công ty công nghệ sẵn sàng hợp tác với hoạt động phô trương của NVIDIA có thể là do NVIDIA nắm giữ nguồn tài nguyên khan hiếm nhất trong kỷ nguyên model cỡ lớn - H100.
Hiện tại, hầu hết các doanh nghiệp đều không có đủ sức mạnh tính toán. Ngay cả Altman, người sáng lập OpenAI, cũng bất lực phát biểu tại một phiên điều trần: “Nếu mọi người ít sử dụng ChatGPT hơn, chúng tôi sẽ rất vui, vì chúng tôi đang rất thiếu GPU [2]”.
Bạn mua bao nhiêu chiếc H100 thậm chí có thể trở thành yếu tố then chốt quyết định thành tích AI. Điều này cũng giúp Nvidia tự tin “cầm H100 để chinh phục các ông hoàng”.
"Đất hiếm" của máy tính
Nói chung, các công ty công nghệ sẽ mua dịch vụ của các nhà cung cấp điện toán đám mây để đáp ứng nhu cầu về sức mạnh tính toán của họ. Bắt đầu từ tháng 3 năm 2023, các nhà cung cấp điện toán đám mây như Microsoft Azure và Amazon AWS cũng đã triển khai dịch vụ cho thuê HGXH100. HGXH100 là một máy chủ bao gồm 4 hoặc 8 H100.
Tuy nhiên, cung và cầu hiện tại đang mất cân bằng nghiêm trọng và lượng hàng tồn kho H100 của các nhà sản xuất điện toán đám mây còn lâu mới đáp ứng được nhu cầu của thị trường. Trong báo cáo tài chính nửa đầu năm 2023, Microsoft đã cập nhật cụ thể một yếu tố rủi ro: nếu không có đủ chip AI, hoạt động kinh doanh điện toán đám mây có thể bị gián đoạn.
Nhiều công ty khởi nghiệp cần phải xếp hàng chờ từ 3-12 tháng. Một khi đối thủ vượt lên trước thì có thể bị mất giá trị hàng chục, chục tỷ đồng.
HGXH100
Vô số người "H100 nghèo" chỉ có thể bị buộc phải vận dụng sáng kiến chủ quan của mình để xem con đường của ai hoang dã hơn.
Trong một cuộc phỏng vấn với New York Times, một doanh nhân đã so sánh H100 với “đất hiếm”. Trước đó, anh đã đến xin Quỹ Khoa học Quốc gia đầu tư cho mình, chỉ vì một trong những dự án của quỹ tình cờ có một vài chiếc H100 còn trống.
Ở Thung lũng Silicon, cách các doanh nhân AI chào nhau đã trở thành "Tôi biết một anh chàng có H100" - những người không biết thì nghĩ rằng họ đang mua bán ma túy[4].
GPUUtils đã từng đo lường dữ liệu nhu cầu cụ thể đằng sau cơn sốt mua H100:
Đối với những công ty cần tự đào tạo những người mẫu lớn và nỗ lực hết sức để theo đuổi điều kỳ diệu, họ rất xấu hổ khi ra ngoài mà không tốn hàng chục nghìn chiếc H100. InflectionAI, được thành lập bởi cựu đồng sáng lập DeepMind Suleiman, mới thành lập được một năm và đã mua 22.000 chiếc H100; đối với một công ty có túi tiền dồi dào như Meta, họ có khả năng mua 100.000 đô la trở lên.
Đối với các nhà cung cấp điện toán đám mây như Microsoft Azure, mỗi nhà cung cấp cũng cần ít nhất 30.000 chiếc H100. Các đám mây riêng còn lại cũng sẽ tiêu thụ tổng cộng khoảng 100.000 chiếc H100.
Sau khi tính toán, người ta thấy rằng nhu cầu đối với các công ty công nghệ lớn và một vài công ty khởi nghiệp ngôi sao ở Mỹ đã lên tới xấp xỉ 430.000 [5]. Nếu tính cả việc theo đuổi các công ty khởi nghiệp, tổ chức nghiên cứu, trường đại học và thậm chí cả các quốc gia giàu có khác, cũng như các yếu tố không thể kiểm soát được như các nhà đầu tư lướt sóng và thị trường chợ đen, thì nhu cầu thực tế có thể sẽ lớn hơn nhiều so với con số này. Tuy nhiên, theo "Financial Times" của Anh, lượng xuất xưởng của H100 trong năm nay là khoảng 550.000 chiếc [6].
H100 Một trong những lý do cốt lõi khiến nó được thèm muốn đến vậy là vị thế thị trường gần như độc quyền của nó.
Đối mặt với nhu cầu về hiệu quả cực cao trong đào tạo mô hình lớn, H100 là giải pháp tối ưu trong hầu hết các trường hợp.
MPT-30B là LLM mã nguồn mở đầu tiên (mô hình ngôn ngữ lớn) được đào tạo bằng H100. Quá trình đào tạo thực tế chỉ kéo dài 11,6 ngày; so sánh, quá trình đào tạo sử dụng A100 thế hệ trước mất 28,3 ngày [7]. Nếu bạn chuyển sang AI có thang tham số lớn hơn, chẳng hạn như 1800B GPT-4, sự khác biệt về hiệu quả sẽ càng rõ ràng hơn. Trong thời đại đua ngựa và đặt cược, thời gian là tất cả.
Ngoài ra, hiệu quả của H100 trong suy luận mô hình cũng cao hơn nhiều so với A100. Mặc dù giá ban đầu của H100 khoảng 33.000 USD nhưng giá thị trường đồ cũ hiện đã tăng lên 40.000-50.000 USD; nhưng nếu hiệu suất của H100 và A100 được chia cho mức giá tương ứng, có thể thấy rằng tỷ lệ giá/hiệu suất của H100 thực sự cao hơn so với A100.
MPT-30B tình huống đào tạo và suy luận cụ thểT AGPH14
Huang Renxun nói: "Mua nhiều GPU, bạn càng tiết kiệm được nhiều tiền (mua nhiều hơn, tiết kiệm nhiều hơn)", điều này có vẻ hợp lý.
Vì điều này, ngay cả khi Hoa Kỳ hạn chế xuất khẩu H/A100 sang Trung Quốc, các công ty công nghệ trong nước vẫn đang chộp lấy phiên bản H/A800 bị thiến - mặc dù tốc độ truyền dữ liệu giữa các chip của phiên bản thiến chỉ bằng một nửa so với trước đây, đồng nghĩa với việc cần dành nhiều thời gian hơn cho việc đào tạo mô hình lớn.
Ngoài nhu cầu rất lớn, một nguyên nhân khác dẫn đến tình trạng khan hiếm H100 là do thiếu năng lực sản xuất nghiêm trọng. Chip
H100 yêu cầu sử dụng bộ nhớ HBM của SK Hynix và bao bì CoWoS của TSMC - cả hai đều quá đắt và chưa được tiếp thị trên quy mô lớn trước đây cũng như năng lực sản xuất chưa được chuẩn bị nhiều. Vì sẽ cần thời gian để tăng cường năng lực sản xuất, một số nhà phân tích dự đoán rằng tình trạng thiếu H100 sẽ tiếp tục cho đến ít nhất là quý đầu tiên của năm sau, trong khi những người khác tin rằng tình trạng này có thể không giảm bớt cho đến cuối năm sau [9].
H100 Cấu trúc bên trong
H100 Sự kiện hoành tráng chưa từng có đã cho phép Huang Jenxun trải nghiệm cảm giác đi tàu lượn siêu tốc chỉ trong một năm.
Trong quý 2 năm ngoái, do thị trường tiêu dùng trì trệ và sự sụp đổ của các công ty khai thác mỏ, Nvidia đã đưa ra một báo cáo tài chính không đủ tiêu chuẩn và biểu tượng cảm xúc "GPU không thể bán được, hãy giúp chúng tôi" ở khắp mọi nơi. Một năm sau, Huang Renxun đã chứng minh thành công cho thị trường vốn thấy "cơn bão ngược" là gì, với doanh thu so với cùng kỳ năm ngoái tăng vọt 854%, vượt đáng kể so với dự báo của các nhà phân tích lạc quan nhất.
Đỉnh cao đã mang lại rất nhiều lời khen ngợi, nhưng trong thâm tâm Huang Renxun biết rằng luôn có một thanh kiếm treo trên đầu NVIDIA.
Cuộc chiến không thể tránh khỏi
Vào tháng 8 năm nay, kỹ sư huyền thoại Jim Keller đã nói với giới truyền thông rằng: "Tôi không nghĩ GPU là tất cả để chạy AI. Thế giới ghét sự độc quyền [11]."
Mặc dù tuyên bố này có vẻ như đang quảng cáo chip AI của riêng họ nhưng đó cũng là sự đồng thuận của cả ngành.
Trên thực tế, những công ty công nghệ lớn mua H100 nhiều nhất về cơ bản đều không mấy "ổn định": Microsoft, Google và Meta ít nhiều đã cố gắng phát triển chip AI tự phát triển.
Điều này khiến Nvidia phải đối mặt với một tình thế vô cùng lúng túng: trong lĩnh vực chip AI, gần như chắc chắn sẽ xảy ra cuộc chiến giữa mình và các “khách hàng lớn” của mình trong tương lai.
Các công ty công nghệ lớn chọn phát triển chip AI của riêng mình ban đầu vì nhu cầu tiết kiệm tiền rất đơn giản. Điển hình nhất là Google.
Ngay từ năm 2014, Google đã đưa ra kế hoạch chip tự phát triển. Vào thời điểm đó, nhà khoa học trưởng của OpenAI là Ilya vẫn đang làm việc tại Google và đã tạo ra một bộ mô hình AI đột phá. Mô hình này ra đời từ quan niệm “phép màu đến từ những nỗ lực mạnh mẽ” của Ilya. Miễn là dữ liệu được đưa vào đủ và chính xác, nó có thể hoàn thành tốt hơn việc dịch thuật, nhận dạng giọng nói và các tác vụ khác. Tuy nhiên, khi đưa vào ứng dụng thực tế, Google đã gặp khó khăn:
Nếu dịch vụ AI được cài đặt trên hơn 1 tỷ điện thoại Android, ngay cả khi mỗi người chỉ sử dụng 3 phút mỗi ngày, Google sẽ cần gấp đôi sức mạnh tính toán của trung tâm dữ liệu hiện tại. Vào thời điểm đó, Google đã xây dựng 15 trung tâm dữ liệu, mỗi trung tâm trị giá hàng trăm triệu USD. “Siêu nhân đôi” rõ ràng là không thực tế.
Cuối cùng, Google đã phát triển TPU với hiệu suất mạnh hơn và mức tiêu thụ điện năng thấp hơn, giúp cải thiện đáng kể nguồn cung cấp năng lượng tính toán của một trung tâm dữ liệu duy nhất và giải quyết vấn đề sức mạnh tính toán theo cách tiết kiệm hơn.
Giới thiệu trung tâm dữ liệu TPUTAGPH Sự xuất hiện của 58
TPU khiến Huang Renxun cảm thấy lo lắng và bắt đầu "cải tạo GPU" và sớm đạt được bước đột phá về hiệu suất. Kết quả mới nhất của anh ấy là H100. Tuy nhiên, giá của H100 lại quá đắt.
Nếu H100 được bán theo trọng lượng, giá mỗi ounce của nó sẽ bằng một nửa giá vàng; ngay cả đối với công ty công nghệ có lợi nhuận cao nhất trên trái đất, "thuế NVIDIA" này vẫn là một điều vô cùng to lớn.
Tuy nhiên, chi phí sản xuất thực tế của H100 không cao. Theo tính toán của công ty tư vấn tài chính Raymond James, giá của H100 là khoảng 3.320 USD, chỉ bằng 1/10 so với giá ban đầu. Huang Renxun kiếm được lợi nhuận gấp 10 lần trong nước mắt[12]
Lợi ích kinh tế của chip tự phát triển là không thể nghi ngờ, nhưng ngoài ra, thực tế còn có một lợi ích khác: tích hợp theo chiều dọc để tạo ra sự khác biệt.
Tích lũy sức mạnh tính toán không chỉ đơn giản là đổ thêm xăng vào xe. Nó đòi hỏi phải xem xét một loạt vấn đề như khả năng thích ứng của phần mềm và nhu cầu kinh doanh của chính nó. Ví dụ, có rất nhiều trường phái về khung học tập sâu được AI sử dụng. Google sử dụng TensorFlow, Meta sử dụng PyTorch và Baidu sử dụng PaddlePaddle. Phần cứng cần phải được điều chỉnh theo các khuôn khổ khác nhau.
Chip AI được tùy chỉnh đặc biệt có thể đáp ứng chặt chẽ hơn nhu cầu kinh doanh AI của riêng mình. Do đó, Meta đã khởi động lại kế hoạch chip tự phát triển của mình trong năm nay và tùy chỉnh chip MTIA mới cho khung PyTorch.
Đối với các công ty lớn, yếu tố cốt lõi của chip không phải là sức mạnh tính toán mà là "sức mạnh tính toán được cung cấp trên mỗi đơn vị đô la", tức là chi phí. TPU của Google và Dojo của Tesla đã chứng minh rằng chi phí cho các dịch vụ tùy chỉnh là có thể chấp nhận được.
Hiện tại, “tia lửa phản kháng” đã được khơi dậy. Theo báo chí nước ngoài đưa tin, đội ngũ điện toán đám mây của các công ty công nghệ lớn đã bắt đầu thường xuyên thuyết phục khách hàng chuyển sang sử dụng chip do chính họ tự phát triển thay vì GPU của Nvidia. Mặc dù Nvidia là người chiến thắng tuyệt đối cho đến nay nhưng không ai biết khi nào sự cân bằng sẽ bị phá vỡ.
Tuy nhiên, trước cuộc chiến không thể tránh khỏi này, NVIDIA cũng có phương án dự phòng.
H100 để làm hoàng tử
Bài đầu tiên do Nvidia chơi có tên là CoreWeave.
CoreWeave được thành lập vào năm 2017. Ban đầu nó là một công ty khai thác Ethereum và sau đó chuyển đổi thành một doanh nghiệp điện toán đám mây. Theo nhà sáng lập CoreWeave, doanh thu của công ty vào năm 2022 sẽ là 30 triệu USD, chỉ bằng 1/1133 của Microsoft Azure và gần như không có sự hiện diện ở Thung lũng Silicon.
Tuy nhiên, vào năm 2023, CoreWeave bất ngờ nổi tiếng chỉ sau một đêm và liên tiếp ký hợp đồng với hai khách hàng lớn là InflectionAI và StabilityAI. Doanh thu hàng năm dự kiến đạt 500 triệu đô la Mỹ, tăng 16 lần trong một năm. Ngoài ra, Microsoft thậm chí còn quyết định chi hàng tỷ USD để mua dịch vụ của mình trong vài năm tới; trong đó riêng đơn đặt hàng cho năm 2024 đã lên tới 2 tỷ USD.
Người đã thay đổi số phận của CoreWeave chính là NVIDIA.
Vào tháng 4 năm nay, NVIDIA đã tham gia đầu tư vào CoreWeave; nhưng so với đô la Mỹ, NVIDIA cũng tặng cho nó một loại tài nguyên H100 hiếm hơn. CoreWeave là công ty điện toán đám mây đầu tiên trên thế giới ra mắt dịch vụ cho thuê HGXH100, sớm hơn Microsoft Azure một tháng.
Ba người sáng lập CoreWeave
Sự sắp xếp này thực ra là do Huang Renxun cố ý.
H100Vị trí thị trường gần như độc quyền và tình trạng thiếu hụt nghiêm trọng mang lại cho Nvidia một lớp quyền lực bổ sung: hãng có thể tự do quyết định ai sẽ được ưu tiên.
So với tình bạn nhựa giữa tôi và BigTech, CoreWeave và NVIDIA là những người đồng chí cách mạng thực sự. Vì vậy, Nvidia đã cắt nguồn cung H100 cho các công ty công nghệ lớn và thay vào đó giao phần năng lực sản xuất này cho những “người anh em” của mình như CoreWeave - họ đã đảm bảo rằng sẽ không phát triển chip của riêng mình.
Đánh giá từ kết quả, chiến lược này không chỉ tránh được hiện tượng tích trữ mà còn quả thực đã chộp lấy miếng bánh của các công ty công nghệ lớn:
Ví dụ, S nêu trên StabilityAI luôn coi Amazon AWS là nhà cung cấp dịch vụ đám mây duy nhất của mình vào cuối năm 2022; tuy nhiên, vào tháng 3 năm nay, StabilityAI, vốn đang gặp khó khăn về khả năng tính toán, đã lặng lẽ mở ra cánh cửa CoreWeave.
Trên thực tế, Nvidia không chỉ có CoreWeave. Nhà đầu tư nắm giữ H100 này cũng đã đầu tư vào LambdaLabs, cũng là một công ty điện toán đám mây, cũng như các công ty khởi nghiệp ba sao tham gia phát triển ứng dụng và mô hình lớn.
InflectionAI, được thành lập bởi Suleiman, cựu đồng sáng lập DeepMind, cũng nhận được đầu tư từ NvidiaTAG PH44
Vào thời điểm 100.000 mẫu lớn được sản xuất trên mỗi mu, H100 là một loại tiền tệ quý hơn đồng đô la Mỹ và nó cũng tạo ra một khoảng thời gian có giá trị cho NVIDIA: hãy để càng nhiều công ty sử dụng H100 càng tốt, thiết lập một hệ sinh thái càng sớm càng tốt và "kết bạn nhiều hơn".
Vậy thời hạn này có thể kéo dài bao lâu?
Phần kết
Hàng loạt “hoạt động ngang ngược” của NVIDIA đã thu hút sự chú ý của các cơ quan chống độc quyền của Hoa Kỳ. Đồng thời, cơn sốt toàn cầu giành lấy H100 có thể sẽ không kéo dài lâu.
Như đã đề cập ở trên, năng lực sản xuất H100 bị hạn chế do năng lực sản xuất dự trữ của TSMC và SK Hynix không đủ; khi các dây chuyền sản xuất mới dần được triển khai thì tình trạng thiếu hụt sẽ dần được giảm bớt.
Ngoài ra, nhu cầu mạnh có thể không tiếp tục.
Trên thực tế, ngày càng có nhiều công ty công nghệ và tổ chức nghiên cứu lựa chọn nguồn mở các mô hình lớn. Khi ngày càng có nhiều mô hình nguồn mở chất lượng cao trên thị trường, các công ty khởi nghiệp và tổ chức nghiên cứu không còn cần phải tự đào tạo mà có thể trực tiếp tải xuống các mô hình nguồn mở và phát triển hoặc suy luận theo nhu cầu kinh doanh của riêng mình.
Sau khi Meta phát hành mô hình lớn nguồn mở Llama, các nhà nghiên cứu từ Stanford, Carnegie Mellon và các trường đại học khác đã hợp tác để tạo ra mô hình lớn mã nguồn mở Vicuna dựa trên nó, con số này đã sớm vượt quá 2 triệu lượt tải xuống.
Vicuna
Trong tương lai có thể nhìn thấy, kịch bản sử dụng chính của sức mạnh tính toán có thể sẽ chuyển từ đào tạo sang suy luận - đến lúc đó, H100 sẽ không còn đơn độc nữa. Bởi vì không giống như các kịch bản đào tạo theo đuổi hiệu quả tối đa, lý luận AI thực sự coi trọng hiệu quả chi phí hơn.
Mặt khác, vấn đề mà AI tạo ra được đại diện bởi các mô hình lớn hiện đang gặp phải là khi đối mặt với chi phí điện năng tính toán cao, không ai ngoại trừ NVIDIA kiếm được tiền.
Khi nền tảng CUDA được ra mắt vào năm 2006, NVIDIA đã thúc đẩy sự phát triển nhanh chóng của AI với tầm nhìn xa vượt ra ngoài ngành. Ngày nay, thành tích ấn tượng của Nvidia dường như là một kiểu tra tấn: phải chăng nó đã chuyển từ người thúc đẩy AI sang chống lại sự tiến bộ của AI?