Vào máy chủ. RISC-V có thể cạnh tranh với x86 không?

Như chúng ta đã biết, bộ xử lý kiến trúc x86 hiện đang thống trị thị trường PC và máy chủ, trong khi bộ xử lý kiến trúc Arm thống trị thị trường di động và chiếm thị phần lớn trên thị trường IoT. Tuy nhiên, trong những năm gần đây, kiến trúc RISC-V đã trở nên rất phổ biến trong lĩnh vực Internet of Things tập trung vào hiệu quả sử dụng năng lượng nhờ những ưu điểm của nó như nguồn mở, hướng dẫn hợp lý và khả năng mở rộng.

Được thúc đẩy bởi RISC-V International và các nhà sản xuất chip liên quan, RISC-V cũng đã bắt đầu tham gia vào thị trường máy chủ với yêu cầu hiệu suất cao hơn.

Đầu năm 2023, RISC-VInternational đã xác định HPC là lĩnh vực ưu tiên chiến lược cho sự phát triển của RISC-V, cùng với sự phê duyệt gần đây về các phần mở rộng vectơ và một số lượng lớn các nỗ lực phần mềm HPC để chuyển các thư viện và công cụ HPC quan trọng, rõ ràng là động lực trong lĩnh vực này đang tăng lên nhanh chóng.

Nhiều dự án trên khắp thế giới, chẳng hạn như dự án eProcessor châu Âu, CPU Esperanto với hàng nghìn lõi RISC-V và dự án RISE của nhiều nhà cung cấp nhằm phát triển khả năng hỗ trợ cho các thành phần phần mềm chính của RISC-V, có thể thúc đẩy mức độ phổ biến của RISC-V trong điện toán cao cấp, bao gồm HPC và cuối cùng cho phép cộng đồng xây dựng siêu máy tính xung quanh công nghệ này.

Ngoài ra, nghiên cứu ứng dụng ban đầu cũng đồng tình với những lợi ích mà RISC-V có thể mang lại cho khối lượng công việc hiệu suất cao.

Vào tháng 12 năm 2022, công ty khởi nghiệp chip Ventana Microsystems đã phát hành CPU-VeyronV1 192 nhân đầu tiên trên thế giới dựa trên kiến trúc RISC-V cho thị trường dịch vụ tại Hội nghị thượng đỉnh RISC-V.

Theo báo cáo, VeyronV1 sử dụng công nghệ xử lý 5nm tiên tiến, dựa trên lõi RISC-V hiệu suất cao do Ventana tự phát triển, thiết kế 8 đường ống, hỗ trợ thực thi không theo thứ tự, với tần số chính lên tới 3,6 GHz và tối đa 16 đường dẫn trên mỗi cụm. Lõi, nhiều cụm có thể được mở rộng lên tới 192 lõi, có bộ đệm L3 chia sẻ 48 MB, có các biện pháp giảm thiểu tấn công kênh bên nâng cao, IOMMU và Kiến trúc ngắt nâng cao (AIA), hỗ trợ các chức năng RAS toàn diện và phương pháp điều chỉnh hiệu suất phần mềm từ trên xuống để đáp ứng các nhu cầu khác nhau của trung tâm dữ liệu.

Theo dữ liệu được Ventana tiết lộ, trong thử nghiệm SPECint2017, phiên bản lõi 128 của VeyronV1 có mức tiêu thụ điện năng là 300W. Hiệu suất biên độ cao hơn AMDEPYCMilan7763 64 lõi (280W) và gấp đôi so với AWS Graviton G3 64 lõi (lõi Neoversev1) và Intel Xeon Ice Lake8380 40 lõi (270W). Tất nhiên, điều này chủ yếu là do số lượng lõi đã đạt gấp đôi so với các sản phẩm cạnh tranh.

Cần chỉ ra rằng VeyronV1 không có bộ thực thi SIMD hoặc vector, điều này sẽ rất bất lợi cho bộ xử lý máy chủ Intel hoặc AMD có AVX-512.

Ngoài ra, VeyronV1 vẫn chưa được sản xuất hàng loạt. Trước đó hãng hứa sẽ cung cấp mẫu cho khách hàng vào quý 2 hoặc quý 3 năm nay. Vì vậy, những số liệu được công bố chính thức nêu trên vẫn chỉ nằm trên giấy tờ.

Ngược lại, chip máy chủ RISC-V 64 nhân SG2042 do một nhà sản xuất trong nước ra mắt vào tháng 3 năm nay đã được xuất xưởng với số lượng nhỏ.

Gần đây, nhà nghiên cứu nước ngoài Nick Brown đã tiến hành thử nghiệm thực tế con chip này thông qua bộ điểm chuẩn RAJAPerf và nhận thấy rằng so với chip RISC-V mới nhất được bán rộng rãi, hiệu suất trung bình trên mỗi lõi của nó đã tăng từ 5 đến 10 lần. Tuy nhiên, dưới khối lượng công việc đa luồng, hiệu năng trung bình của CPU hiệu năng cao x86 vẫn cao hơn 4-8 lần.

Theo báo cáo nghiên cứu, bộ xử lý RISC-V 64 lõi chạy ở tốc độ 2GHz, bao gồm bốn lõi C920 hiệu suất cao và áp dụng thiết kế đường ống siêu vô hướng đa vấn đề không theo thứ tự 12 cấp.

C920 cung cấp bộ lệnh RV64GCV với ba bộ giải mã, bốn đơn vị đổi tên/lập lịch, tám đơn vị phát hành/thực thi và hai đơn vị thực thi tải/lưu trữ. Hỗ trợ mở rộng tiêu chuẩn vector hóa (RVVv0.7.1), độ rộng vectơ là 128 bit, hỗ trợ các kiểu dữ liệu FP16, FP32, INT8, INT16, INT32 và INT64. Tuy nhiên, C920 không hỗ trợ vector hóa FP64

Nghiên cứu cho biết dấu phẩy động có độ chính xác kép là nền tảng của phần lớn khối lượng công việc hiệu suất cao, do đó, các lõi có thể hỗ trợ vector hóa các hoạt động này có thể mang lại hiệu suất cao hơn cho HPC. Mỗi lõi C920 cũng chứa 64KB bộ đệm L1 (I) và dữ liệu (D), 1 MB bộ đệm L2, được chia sẻ giữa cụm bốn lõi và 64 MB bộ đệm hệ thống L3, được chia sẻ bởi tất cả các lõi trong cụm. Bốn bộ điều khiển bộ nhớ DDR4-3200 và 32 làn PCIeGen4 cũng có sẵn.

Một điều quan trọng cần cân nhắc đối với khối lượng công việc HPC là vectơ hóa và vì lõi C920 chỉ hỗ trợ RVVv0.7.1 nên việc hỗ trợ trình biên dịch là một thách thức. Phiên bản ngược dòng hiện tại của trình biên dịch RISC-VGNU không hỗ trợ bất kỳ phiên bản nào của phần mở rộng vectơ. Mặc dù kho lưu trữ GNU chứa nhánh rvv next, được thiết kế để hỗ trợ rvvv1.0, nhưng nó không được duy trì tích cực vào thời điểm các nhà nghiên cứu viết nghiên cứu của họ.

Ngoài ra, có một nhánh rvv-0.7.1 cho rvvv0.7.1, nhưng nhánh này đã bị xóa. Do thiếu sự hỗ trợ cho GCC dòng chính, T-Head cung cấp một nhánh riêng của trình biên dịch GNU (Xuantie GCC), được tối ưu hóa cho các bộ xử lý của nó.

Trình biên dịch tùy chỉnh của T-Head hỗ trợ cả RVVv0.7.1 và các tiện ích mở rộng tùy chỉnh của riêng chúng. Mặc dù một số phiên bản của trình biên dịch này đã được cung cấp, GCC8.4, như một phần của bản phát hành 20210618, cung cấp khả năng tự động vector hóa tốt nhất, vì vậy đây là phiên bản được chọn cho các thử nghiệm đo điểm chuẩn do các nhà nghiên cứu thực hiện.

Phiên bản trình biên dịch này tạo ra thành phần RVV có độ dài vectơ (VLS) cụ thể được nhắm mục tiêu cụ thể vào chiều rộng vectơ 128 bit của C920. Tất cả các hạt nhân được biên dịch ở mức tối ưu hóa thứ ba và tất cả các kết quả được báo cáo đều được tính trung bình trong năm lần chạy.

So sánh với các lõi RISC-V hiệu suất cao khác

Các nhà nghiên cứu so sánh bo mạch phát triển SG 2042 và StarFive (StarFive) Hiệu năng VisionFiveV1 và VisionV2, V1 chứa StarFive JH7100SoC, trong khi V2 chứa StarFive JH7110SoC.

Cả hai SoC, JH7100 và JH7110, đều được xây dựng dựa trên lõi RISC-VSiFiveU74 64-bit. JH7100 chứa hai lõi và JH7110 chứa bốn lõi. SoC được liệt kê là chạy ở tốc độ 1,5 GHz và lõi U74 chứa bộ đệm L1 32KB (D) và 32KB (I). Cả hai mẫu SoC cũng chứa bộ nhớ đệm 2MBL2 được chia sẻ giữa các lõi.

Tuy nhiên, SiFiveU74 chỉ cung cấp RV64GC và do đó không hỗ trợ phần mở rộng vectơ RISC-V.

△ Hình 1 cho thấy so sánh hiệu suất lõi đơn của VisionFiveV2 và V1 với SG2042 về độ chính xác kép (FP64) và độ chính xác đơn (FP32). Trong đó thanh là số lần trung bình nhanh hơn hoặc chậm hơn trong danh mục và các dòng nằm trong khoảng từ lớn nhất đến nhỏ nhất.

Như có thể thấy trong Hình 1, một lõi C920 hoạt động tốt hơn lõi U74 của V2 và V1 ở cả độ chính xác kép và độ chính xác đơn.

Ở độ chính xác gấp đôi, hiệu suất trung bình của lõi C920 gấp 4,3 đến 6,5 lần so với U74 trong V2 chạy ở độ chính xác gấp đôi. Ngoài ra, ở độ chính xác đơn, C920 đạt hiệu suất gấp 5,6 đến 11,8 lần so với hiệu suất trung bình chuẩn. Đó là một mức tăng hiệu suất ấn tượng và không có lõi nào trên C920 chạy chậm hơn U74.

Hiệu năng của một số lõi trên C920 rất ấn tượng, ví dụ benchmark thiết lập bộ nhớ từ nhóm thuật toán chạy nhanh hơn 40 lần ở FP32 và nhanh hơn 18 lần ở FP64 so với U74.

Cần nhấn mạnh rằng điểm chuẩn này được thực hiện trên các lõi này ở cấu hình tốt nhất có thể, tức là tính năng vectơ được sử dụng trên C920, nhưng tính năng vectơ không được hỗ trợ trên U74 nên không khả dụng trên V1 hoặc V2.

Có sự khác biệt đáng kể về hiệu suất giữa FP32 và FP64 trên SG2042, cho thấy rằng trên thực tế, các hoạt động vectơ C920 không hỗ trợ FP64. Để so sánh, sự khác biệt về hiệu suất giữa việc chạy độ chính xác kép và độ chính xác đơn trên V2 nhỏ hơn nhiều.

Một khía cạnh của kết quả trong Hình 1 khiến các nhà nghiên cứu ngạc nhiên là VisionFiveV1 chậm hơn đáng kể so với V2. Xem xét các thử nghiệm chỉ chạy RAJAPerf trên một lõi, bản chất lõi kép và lõi tứ của chip không thành vấn đề vì cả hai đều chứa cùng một lõi U74, do đó hiệu năng sẽ khá giống nhau.

Tuy nhiên, V1 chậm hơn sáu đến ba lần so với V2 ở độ chính xác gấp đôi và chậm hơn một đến ba lần ở độ chính xác đơn. Mặc dù có thể giả định rằng V1 có thể đang chạy ở tần số xung nhịp thấp hơn V2, mặc dù cả hai đều được liệt kê là chạy ở tốc độ 1,5 GHz trong biểu dữ liệu nhưng không có tài liệu hoặc đầu ra nào trên máy để xác nhận điều này.

Như có thể thấy trong Hình 1, hiệu suất mà một lõi C920 đạt được là rất ấn tượng so với các lõi RISC-V thông thường hiện có. T-Head mô tả lõi là bộ xử lý RISC-V hiệu suất cao. Các thử nghiệm

cũng cho thấy những cải thiện đáng kể về hiệu suất trên toàn bộ bộ điểm chuẩn so với U74, vốn trước đây được coi là lựa chọn tốt nhất trong số các RISC-VCPU có sẵn rộng rãi để thử nghiệm khối lượng công việc HPC.

Ngoài hiệu suất lõi đơn, SG2042 còn vượt trội đáng kể so với JH7100 của V1 và JH7110 SoC của V2 về số lượng lõi.

So sánh với hiệu suất CPU máy chủ x86

Vậy so với các chip máy chủ x86 thương mại khác, SG2042 hoạt động như thế nào trong khối lượng công việc HPC?

Về vấn đề này, các nhà nghiên cứu đã so sánh nó với các CPU khác được sử dụng trong các máy chủ thế hệ hiện tại, cụ thể là AMD RomeEPYC7742 64 nhân, Intel Broadwell Xeon E5-2695 18 nhân, Intel Ice Lake Xeon 6330 28 nhân và Intel Sandy Bridge Xeon E5-2609 4 nhân.

Các thử nghiệm chỉ được thực hiện trên lõi vật lý của các CPU x86 này vì tất cả SMT đều bị tắt theo mặc định.

AMDEPYC7742 chứa 64 lõi vật lý ở bốn vùng NUMA, mỗi lõi có 16 lõi nhưng có tám bộ điều khiển bộ nhớ. Mỗi lõi chứa bộ đệm L1 32KB (I) và 32KB (D), bộ đệm L2 512KB và bộ đệm L3 16 MB được chia sẻ giữa bốn lõi. EPYC7742 cung cấp hỗ trợ cho AVX2, có các thanh ghi vectơ rộng 256 bit, rộng gấp đôi SG2042 và hỗ trợ vector hóa cho FP64.

18 lõi vật lý của Intel Tương tự như AMD EPYC7742, Xeon E5-2695 hỗ trợ AVX2 và có bốn bộ điều khiển bộ nhớ.

Intel Xeon6330 là CPU mới nhất được so sánh, với tất cả 28 lõi vật lý trong một vùng NUMA, với 8 bộ điều khiển bộ nhớ, với bộ nhớ đệm L1 32KB (I) và 48KB (D), bộ nhớ đệm 1MBL2 trên mỗi lõi và bộ nhớ đệm L3 dùng chung 43 MB. Xeon6330 hỗ trợ AVX512 và cung cấp các thanh ghi vectơ rộng 512 bit.

Intel Xeon E5-2609 là CPU lâu đời nhất trong thử nghiệm này. Nó được phát hành vào năm 2012 và chỉ cung cấp bốn lõi vật lý. Mỗi lõi có bộ đệm L1 64KB (I) và 64KB (D), cũng như bộ đệm L2 256KB và bộ đệm 10MBL3 dùng chung. E5-2609 này chỉ hỗ trợ AVX nên độ dài thanh ghi vectơ tương đương với SG2042, 128 bit, mặc dù AVX hỗ trợ FP64.

Trong tất cả các thử nghiệm, các nhà nghiên cứu đã vô hiệu hóa siêu phân luồng trên lõi vật lý x86. Các nhà nghiên cứu đã sử dụng GCC phiên bản 8.3 trên tất cả các hệ thống ngoại trừ ARCHER2 và quá trình biên dịch luôn được thực hiện ở mức tối ưu hóa O3. Một hệ thống thực thi tất cả trên số lượng luồng có hiệu suất cao nhất.

△ Hình 4 cho thấy hiệu suất lõi đơn của từng chip chạy bộ điểm chuẩn trên FP64. Trong đó thanh là số lần trung bình nhanh hơn hoặc chậm hơn trong danh mục và các dòng nằm trong khoảng từ lớn nhất đến nhỏ nhất. SG2042 là đường cơ sở trung bình.

Đánh giá từ kết quả thử nghiệm, vượt trội hơn C920 trên tất cả các lõi x86 ngoại trừ lõi Xeon E5-2609 cổ, có hiệu suất trung bình chậm hơn trong các danh mục điểm chuẩn thuật toán và phát trực tuyến.

AMD EPYC7742 và CPU Intel Xeon6330 có xu hướng hoạt động tốt hơn Intel XeonE5-2695, điều này là dễ hiểu vì XeonE5-2695 là model cũ hơn trong ba CPU.

△ Hình 5 cho thấy số lần hiệu năng lõi đơn của mỗi chip chạy bộ benchmark trên FP32 so với đường cơ sở.

Như bạn có thể thấy trong Hình 5, AMD EPYC7742 khá mờ nhạt khi thực thi ở độ chính xác đơn so với độ chính xác kép, trong khi hiệu suất trung bình của bộ xử lý Intel cũng tốt như vậy. Thực tế, khi sử dụng FP32, lõi Xeon E5-2609 cổ điển vượt trội hơn C920 trung bình ở mọi cấp độ.

Tuy nhiên, biểu đồ thanh trung bình trong Hình 5 không cung cấp một bức tranh hoàn chỉnh.

C920 chỉ hỗ trợ vector hóa FP32. Trên thực tế, như có thể thấy từ các đường trong Hình 5 và Hình 4, tốc độ tối đa của nhiều loại điểm chuẩn của FP32 nhanh hơn tốc độ của FP64.

Ngoài ra, có nhiều lõi chậm nhất hoạt động chậm hơn trên CPU x86 so với C920 trên FP32. Các lõi này là nơi áp dụng quá trình tự động hóa vectơ một cách hiệu quả và trên thực tế, có thể thấy rằng đối với lớp điểm chuẩn lcals, ít nhất một lõi trên tất cả các CPU x86 hoạt động kém hơn C920.

Tóm lại, xét về so sánh hiệu năng lõi đơn, hiệu năng trung bình của AMD EPYC7742 dưới FP32 nhanh hơn C920 3 lần, Intel XeonE5-2695 nhanh hơn 2 lần, Intel Xeon6330 cũng nhanh hơn 4 lần, Xeon E5-2609 nhanh hơn 2 lần và những con số này theo FP64 lần lượt nhanh hơn 4 lần, 4 lần, 5 lần và 20%.

△FP64 so sánh hiệu suất đa luồng, thời gian báo cáo nhanh hơn hoặc chậm hơn so với đường cơ sở

Hình 6 hiển thị so sánh hiệu suất cho FP64 có độ chính xác kép.

Có thể thấy các bài kiểm tra cơ bản, lcals, polybench và lớp luồng được hưởng lợi nhiều nhất từ nhiều lõi hơn nên hiệu năng trung bình của SG2042 tốt hơn XeonE5-2609 cổ điển.

△FP32 so sánh hiệu suất đa luồng, thời gian báo cáo nhanh hơn hoặc chậm hơn so với đường cơ sở

Hình 7 thể hiện so sánh hiệu suất đa luồng của FP32. Những kết quả này có sự khác biệt lớn nhất. Để cải thiện khả năng đọc, các nhà nghiên cứu đã hạn chế trục tung và gắn nhãn các giá trị thực tế vượt quá giá trị đó.

Khi nói đến FP32 đa luồng, SG2042 có xu hướng hoạt động tốt hơn một chút so với CPU x86 so với FP64, mặc dù lớp polybench là ngoại lệ ở chỗ nó hoạt động tốt hơn nhiều trên ba CPU x86 mới nhất và Intel Xeon E5-2609 hoạt động kém hơn nhiều.

Tóm lại, khi so sánh hiệu năng đa luồng SG2042 với CPU x86, hiệu năng trung bình 64 nhân của nó tốt hơn Intel Xeon E5-2609 4 nhân ở tất cả các loại benchmark chạy trên FP32 và FP64.

AMD EPYC7742 64 nhân có hiệu năng lần lượt gấp 8 lần và 5 lần so với SG2042 ở FP32 và FP64. Intel Xeon E5-2695 18 nhân đạt trung bình lần lượt là 6 lần và 4 lần ở độ chính xác đơn và độ chính xác kép. Cuối cùng, Intel Xeon6330 28 nhân hoạt động tốt hơn lần lượt 6x và 8x trong FP32 và FP64.

Kết luận:

Nhà nghiên cứu Mặc dù cho đến nay, mặc dù có nhiều công ty đang phát triển các nguyên mẫu phần cứng RISC-V hiệu suất cao khi chạy khối lượng công việc trên RISC-V có bán trên thị trường Theo người sáng lập và Giám đốc điều hành của công ty, phần mềm, các tùy chọn rất hạn chế.

Dù vậy, mặc dù các giải pháp này cho phép thử nghiệm với RISC-V nhưng về mặt kiến trúc, chúng không cung cấp các khả năng cần thiết để tạo ra khối lượng công việc hiệu suất cao. Vì vậy, mặc dù cộng đồng HPC quan tâm đến RISC-V nhưng cộng đồng này vẫn chưa hoàn toàn sẵn sàng cho công nghệ này.

Tất nhiên, với tư cách là chip máy chủ RISC-V đa lõi được cung cấp rộng rãi đầu tiên trên thế giới dành cho HPC, SG2042 có thể làm tăng đáng kể sự quan tâm và áp dụng RISC-V trong cộng đồng HPC. Tuy nhiên, một vấn đề mấu chốt là nó vẫn thua xa các CPU x86 phổ biến trong thế hệ siêu máy tính hiện nay.

Tuy nhiên, đây là chip máy chủ RISC-V rất thú vị mang đến một số thay đổi đáng kể so với phần cứng RISC-V hiện có trên thị trường.

Mặc dù hiệu suất chưa đạt mức của CPU máy chủ x86 nhưng cần nhấn mạnh rằng các nhà cung cấp RISC-V đã đi được một chặng đường dài trong một khoảng thời gian ngắn. Ngược lại, CPU x86 có lịch sử lâu đời và được hưởng lợi từ nhiều năm phát triển.

Hiện tại, đối thủ cạnh tranh chính của RISC-V trên thị trường CPU máy chủ là CPU máy chủ Arm. Xét cho cùng, về mặt lý thuyết, RISC-VCPU có thể có chi phí thấp hơn, khả năng tùy biến và khả năng mở rộng cao hơn CPU Arm.

Đối với thế hệ tiếp theo của bộ xử lý RISC-V hiệu suất cao, các nhà nghiên cứu tin rằng việc cung cấp RVVv1.0 sẽ rất hữu ích vì điều này sẽ cung cấp khả năng sử dụng GCC và Clang dòng chính để biên dịch mã vector hóa.

Ngoài ra, việc cung cấp vectơ FP64, thanh ghi vectơ rộng hơn, bộ đệm L1 tăng và nhiều bộ điều khiển bộ nhớ hơn cho mỗi vùng NUMA cũng có thể mang lại lợi thế đáng kể về hiệu suất và giúp thu hẹp khoảng cách với bộ xử lý hiệu suất cao x86.

Truy cập:

Trung tâm mua sắm Jingdong