Một sinh viên khoa học máy tính 21 tuổi đã giành chiến thắng trong cuộc thi toàn cầu để đọc văn bản đầu tiên từ một cuộn giấy bị cacbon hóa ở thành phố Herculaneum của La Mã cổ đại, nơi không thể đọc được kể từ vụ phun trào núi lửa vào năm 79 sau Công nguyên cũng chôn vùi Pompeii gần đó. Bước đột phá này có thể mở khóa hàng trăm văn bản từ thư viện duy nhất được bảo tồn tốt của thời cổ đại Hy Lạp-La Mã.
Luke Farritor của Đại học Nebraska-Lincoln đã phát triển một thuật toán học máy có thể phát hiện một số dòng chữ cái Hy Lạp trên giấy cói cuộn lại, bao gồm cả πορjυρας (porphyras), có nghĩa là "màu tím". Farritor khai thác các sắc thái của kết cấu bề mặt để huấn luyện mạng lưới thần kinh và làm nổi bật các vết mực.
Federica Nicolardi, nhà nghiên cứu giấy cói tại Đại học Naples ở Ý và là thành viên ủy ban học thuật đã xem xét nghiên cứu của Farritor, cho biết: "Khi tôi nhìn thấy hình ảnh đầu tiên, tôi đã bị sốc. Đó là một giấc mơ. Bây giờ, tôi thực sự có thể nhìn thấy thứ gì đó bên trong cuộn giấy."
Vào tháng 10 năm 79 sau Công Nguyên, Núi Vesuvius phun trào, Herculaneum bị chôn vùi dưới 20 mét tro núi lửa và hàng trăm cuộn giấy bị chôn vùi. Những nỗ lực ban đầu nhằm mở giấy cói đã thất bại, tạo ra một đống mảnh giấy cói và các học giả lo ngại rằng những giấy cói còn lại sẽ không bao giờ có thể được mở ra hoặc đọc được.
Thử thách Vesuvius có một loạt giải thưởng, với việc đọc bốn đoạn văn trở lên trong cuộn sách sẽ dẫn đến giải thưởng chính trị giá 700.000 USD. Vào ngày 12 tháng 10, ban tổ chức thông báo Faritor đã giành được giải thưởng "Bức thư đầu tiên" trị giá 40.000 USD khi đọc hơn 10 ký tự trên một mảnh giấy cói hình vuông 4 cm. Youssef Nader, sinh viên tốt nghiệp tại Freie Universität Berlin, giành vị trí thứ hai và nhận được tiền thưởng 10.000 USD.
Thea Sommerschield, nhà sử học về Hy Lạp và La Mã cổ đại tại Đại học Ca' Foscari ở Venice, Ý, cho biết thật "rất thú vị" khi cuối cùng cũng nhìn thấy các chữ cái và từ ngữ trong cuộn giấy. Những cuộn giấy này được phát hiện vào thế kỷ 18 khi những người công nhân phát hiện ra tàn tích của một biệt thự sang trọng có thể thuộc về gia đình bố vợ của Julius Caesar. Somerhild cho biết, việc giải mã giấy cói có thể “cách mạng hóa sự hiểu biết của chúng ta về lịch sử và văn học cổ đại”. Hầu hết các văn bản cổ điển được biết đến ngày nay là kết quả của việc sao chép lặp đi lặp lại của những người ghi chép trong nhiều thế kỷ. Ngược lại, các tác phẩm được lưu giữ trong Thư viện Herculaneum không có nguồn nào khác mà đến trực tiếp từ tác giả của chúng.
Cho đến nay, các nhà nghiên cứu chỉ có thể nghiên cứu những mảnh vỡ đã được mở. Một số tác phẩm tiếng Latinh đã được phát hiện, nhưng hầu hết chúng đều là tiếng Hy Lạp có liên quan đến trường phái triết học Epicurean. Nó bao gồm các phần của De Nature do chính Epicurus viết, cũng như các tác phẩm của một triết gia ít được biết đến, Philodemus, về các chủ đề như thói xấu, âm nhạc, hùng biện và cái chết. Một số người tin rằng thư viện này có thể là bộ sưu tập tác phẩm của ông. Nhưng hơn 600 cuộn giấy cói - hầu hết ở Thư viện Quốc gia Naples và một số ở Anh và Pháp - vẫn còn nguyên vẹn và chưa mở. Nhiều giấy cói hơn cũng có thể được tìm thấy ở các tầng dưới chưa được khám phá của biệt thự.
Brent Seales, một nhà khoa học máy tính đã giúp thiết lập Thử thách Vesuvius và nhóm của ông đã dành nhiều năm phát triển các phương pháp để "hầu như khám phá" các lớp giấy cói mỏng bằng cách sử dụng phương pháp chụp cắt lớp vi tính tia X (CT) và hiển thị chúng dưới dạng một loạt hình ảnh phẳng. Vào năm 2016, Seales của Đại học Kentucky ở Lexington đã báo cáo việc sử dụng công nghệ này để đọc các cuộn giấy cháy đen của En-Gedi ở Israel, tiết lộ các phần của Sách Lêvi (một phần của Kinh Torah của người Do Thái và Cựu Ước của Cơ đốc giáo) được viết vào thế kỷ thứ ba và thứ tư sau Công nguyên. Nhưng mực trên cuộn N'Gedi có chứa kim loại nên nó phát sáng rực rỡ khi chụp CT. Mực trên cuộn giấy Herculaneum có nguồn gốc từ carbon, về cơ bản là than và nước, đồng thời có cùng mật độ với giấy cói khi quét nên hoàn toàn không hiển thị.
Sears nhận ra rằng ngay cả khi không có sự khác biệt về độ sáng, ảnh chụp CT có thể phát hiện ra những khác biệt nhỏ về kết cấu để có thể phân biệt các vùng giấy cói được phủ mực. Để chứng minh điều này, ông đã huấn luyện một mạng lưới thần kinh nhân tạo để đọc các chữ cái trong ảnh X-quang của các mảnh vỡ Herculaneum. Sau đó, vào năm 2019, anh mang hai cuộn giấy hoàn chỉnh từ Collège de France ở Paris đến Diamond Light Source, một cơ sở chụp X-quang bức xạ synchrotron gần Oxford, Anh, để quét chúng ở độ phân giải cao nhất hiện có (4-8 micron trên mỗi phần tử hình ảnh ba chiều hay voxel).
Tuy nhiên, việc đọc toàn bộ cuộn giấy vẫn là một nhiệm vụ khó khăn nên nhóm đã phát hành tất cả các bản quét và mã ra công chúng và phát động Thử thách Vesuvius. Sears nói: “Chúng tôi đồng ý rằng thay vì cố gắng tích trữ mọi thứ, tốt hơn hết là nên đọc những gì hiện có càng sớm càng tốt”.
Khoảng 1.500 đội đã sớm thảo luận và cộng tác thông qua nền tảng trò chuyện với người chơi Discord. Các giải thưởng được thiết kế theo từng giai đoạn, mỗi khi đạt được một mốc nào đó, mã trúng thưởng sẽ được phát hành để mọi người tiếp tục phát triển trên cơ sở này. Farritor luôn quan tâm đến lịch sử và anh ấy đã gắn bó với nó từ rất sớm khi tự học tiếng Latinh khi còn nhỏ.
Trong khi đó, nhóm của Seales cũng nghiên cứu giải nén ảo, đưa ra hình ảnh của các mảnh phẳng để thí sinh phân tích. Thời điểm quan trọng đến vào cuối tháng 6, khi một thí sinh chỉ ra rằng trên một số hình ảnh, các họa tiết tinh tế của mực, được gọi là "vết nứt", đôi khi có thể nhìn thấy được bằng mắt thường. Farito ngay lập tức tập trung sự chú ý vào việc tìm kiếm thêm manh mối về những bức thư.
Một đêm tháng 8, anh ấy đang tham dự một bữa tiệc thì bất ngờ nhận được thông báo rằng một clip mới đã được phát hành và những vết nứt trong đó đặc biệt rõ ràng. Được kết nối qua điện thoại di động, anh chạy thuật toán trên những hình ảnh mới. Một giờ sau, khi đang đi bộ về nhà, anh rút điện thoại ra và thấy trên màn hình xuất hiện năm chữ cái. "Tôi đã nhảy lên nhảy xuống, ôi chúa ơi, điều này thực sự hiệu quả." Từ đó, anh chỉ mất vài ngày để hoàn thiện mô hình và xác định mười chữ cái cần thiết để giành chiến thắng.
Các nhà cổ điển cũng rất hào hứng. Từ "màu tím" chưa được đọc trong các cuộn giấy mở của Herculaneum. Thuốc nhuộm màu tím rất được ưa chuộng ở La Mã cổ đại và được làm từ các tuyến ốc xà cừ, vì vậy từ này có thể ám chỉ màu tím, áo choàng, đẳng cấp của những người có đủ tiền mua thuốc nhuộm và thậm chí cả động vật thân mềm. Nhưng quan trọng hơn từng từ riêng lẻ là cách phát âm của bất cứ thứ gì, Nicolaidi nói. Sự phát triển này "giúp có thể khôi phục văn bản của toàn bộ cuộn giấy", bao gồm cả tiêu đề và tác giả, giúp xác định danh tính và tuổi của tác phẩm.
Yannis Assael, nhà khoa học nghiên cứu tại Google DeepMind ở London, gọi Thử thách Vesuvius là "độc đáo và đầy cảm hứng". Ông lưu ý rằng trí tuệ nhân tạo (AI) đang ngày càng hỗ trợ việc nghiên cứu các văn bản cổ, nhưng nó chỉ là một phần của sự thay đổi rộng lớn hơn. Ví dụ, năm ngoái Asael và Somerhild đã phát hành một công cụ AI có tên Ithaca, được thiết kế để giúp các học giả thu thập ngày tháng và nguồn gốc của những dòng chữ Hy Lạp cổ đại chưa được biết đến và đưa ra gợi ý văn bản để lấp đầy những khoảng trống. 2 Công cụ này hiện nhận được hàng trăm câu hỏi mỗi tuần và công việc tương tự đang được thực hiện bằng các ngôn ngữ từ tiếng Hàn đến tiếng Akkad, ngôn ngữ được sử dụng ở Lưỡng Hà cổ đại.
Seales hy vọng học máy sẽ mở khóa được cái mà anh gọi là "thư viện ẩn". Cái gọi là "thư viện vô hình" đề cập đến các văn bản thực sự tồn tại nhưng không ai có thể nhìn thấy, bao gồm cả giấy da được sử dụng trong đóng bìa sách thời Trung cổ, sau này là "những tấm da cừu" trong đó văn bản che khuất lớp bên dưới và giấy cói (cartonnage) được sử dụng để làm hộp và mặt nạ xác ướp Ai Cập cổ đại.
Tuy nhiên, giờ đây mọi con mắt đều đổ dồn vào Thử thách Vesuvius. Hạn chót để giành giải thưởng lớn là ngày 31/12, và Seales mô tả tâm trạng là “sự lạc quan không thể kìm nén”. Farito đã tạo mô hình của riêng mình ở các phần khác của cuộn giấy và đang thấy nhiều nhân vật xuất hiện hơn.