Máy Va chạm Hadron Lớn cần một hệ thống cơ sở dữ liệu mới để hỗ trợ các thí nghiệm nhiều petabyte

CERN là một trong những dự án khoa học và kỹ thuật đầy tham vọng nhất trong lịch sử nhân loại. Máy Va chạm Hadron Lớn (LHC) là máy gia tốc hạt lớn nhất và giàu năng lượng nhất thế giới và các nhà khoa học sử dụng nó để phân tích bằng chứng về cấu trúc của thế giới hạ nguyên tử - trong quá trình này, LHC có thể tạo ra hàng chục petabyte dữ liệu mỗi năm.

CERN gần đây đã phải nâng cấp hệ thống CNTT phụ trợ của mình để chuẩn bị cho giai đoạn thử nghiệm mới của Máy Va chạm Hadron Lớn (LHC Operation 3). Dự kiến đến cuối năm 2025, giai đoạn này sẽ tạo ra 1PB dữ liệu mỗi ngày. Các hệ thống cơ sở dữ liệu trước đây không còn đủ khả năng để xử lý dữ liệu “có lượng số cao” được tạo ra bởi các thí nghiệm chính của máy va chạm, chẳng hạn như CMS.

Solenoid Muon nhỏ gọn (CMS) là máy dò vạn năng tại Máy Va chạm Hadron Lớn với chương trình vật lý rộng rãi. Nó bao gồm việc nghiên cứu Mô hình Chuẩn, bao gồm boson Higgs, và tìm kiếm các chiều bổ sung và các hạt có thể tạo nên vật chất tối. CERN gọi thí nghiệm này là một trong những hợp tác khoa học lớn nhất trong lịch sử, với khoảng 5.500 người từ 241 tổ chức ở 54 quốc gia khác nhau tham gia.

CMS và các thí nghiệm Máy Va chạm Hadron Lớn khác đã trải qua giai đoạn nâng cấp lớn từ năm 2018 đến năm 2022 và hiện đã sẵn sàng tiếp tục va chạm của các hạt hạ nguyên tử trong thời gian thu thập dữ liệu Giai đoạn 3 Vận hành kéo dài ba năm. Trong thời gian ngừng hoạt động, các chuyên gia CERN cũng đã thực hiện những nâng cấp đáng kể đối với hệ thống máy dò và cơ sở hạ tầng máy tính hỗ trợ CMS.

Brij Kishor Jashal, một nhà khoa học làm việc với CMS, đã đề cập rằng nhóm của ông đã thu thập 30TB dữ liệu trong 30 ngày để theo dõi hiệu suất của cơ sở hạ tầng. Ông giải thích rằng giai đoạn hoạt động này mang lại độ sáng cao hơn, dẫn đến khối lượng dữ liệu tăng lên đáng kể. Các hệ thống giám sát back-end trước đây dựa trên cơ sở dữ liệu chuỗi thời gian nguồn mở (TSDB) InfluxDB và cơ sở dữ liệu giám sát Prometheus, sử dụng các thuật toán nén để xử lý dữ liệu này một cách hiệu quả.

Tuy nhiên, InfluxDB và Prometheus gặp phải các vấn đề về hiệu suất, khả năng mở rộng và độ tin cậy, đặc biệt là khi xử lý dữ liệu lượng số cao. Số lượng số cao đề cập đến mức độ phổ biến của các giá trị trùng lặp và khả năng triển khai lại ứng dụng nhiều lần trong các phiên bản mới. Để giải quyết những thách thức này, nhóm giám sát CMS đã chọn thay thế InfluxDB và Prometheus bằng cơ sở dữ liệu VictoriaMetrics TSDB.

Giờ đây, VictoriaMetrics vừa là bộ lưu trữ back-end của CMS vừa là hệ thống giám sát của CMS, giải quyết hiệu quả vấn đề lượng số gặp phải trước đây. Jashal lưu ý rằng nhóm CMS hiện hài lòng với hiệu suất của cụm và dịch vụ. Mặc dù vẫn còn chỗ cho khả năng mở rộng nhưng các dịch vụ này đang chạy ở "chế độ sẵn sàng cao" trong cụm Kubernetes chuyên dụng của CMS để mang lại sự đảm bảo độ tin cậy cao hơn. Trung tâm dữ liệu của CERN dựa trên các dịch vụ OpenStack, chạy trên một cụm máy x86 bền chắc.

Truy cập:

Đám mây Alibaba - Voucher phổ thông lên tới 1888 nhân dân tệ có sẵn ngay lập tức