Thử nghiệm phân loại khẩn cấp ở Harvard chứng minh rằng chẩn đoán bằng AI tốt hơn bác sĩ thực sự

Trong các bộ phim truyền hình về y khoa, từ George Clooney trong "ER" đến Noah Wyle trong "ER", các bác sĩ cấp cứu từ lâu đã được miêu tả là những anh hùng cứu sống. Nhưng một nghiên cứu mới nhất của Harvard cho thấy rằng trong các tình huống phân loại khẩn cấp áp suất cao, hệ thống trí tuệ nhân tạo đã vượt qua các bác sĩ về độ chính xác trong chẩn đoán. Kết quả này được các nhà nghiên cứu mô tả là một bước ngoặt công nghệ sẽ “định hình lại y học”.

Nghiên cứu được công bố trên tạp chí Khoa học và do một nhóm tại Trường Y Harvard dẫn đầu, được các chuyên gia độc lập tin rằng sẽ đánh dấu một "tiến bộ thực sự" về khả năng suy luận lâm sàng của trí tuệ nhân tạo, ngoài việc vượt qua các kỳ thi hoặc giải các câu hỏi kiểm tra được xây dựng nhân tạo. Nghiên cứu đã sử dụng thiết kế thử nghiệm quy mô lớn để so sánh hàng trăm bác sĩ với mô hình ngôn ngữ lớn (LLM), tập trung vào việc đánh giá sự khác biệt về hiệu suất trong các tình huống chính như phân loại cấp cứu và lập kế hoạch điều trị dài hạn.

Trong một trong những thí nghiệm cốt lõi, nhóm nghiên cứu đã chọn 76 trường hợp bệnh nhân thực sự từ phòng cấp cứu của một bệnh viện ở Boston. Hệ thống AI và một nhóm gồm hai bác sĩ con người được cung cấp hồ sơ y tế điện tử tiêu chuẩn giống hệt nhau, bao gồm dữ liệu dấu hiệu sinh tồn, thông tin nhân khẩu học và một vài câu mô tả của y tá về lý do của chuyến thăm. Dựa vào thông tin hạn chế này để đưa ra chẩn đoán ban đầu, AI đã đưa ra chẩn đoán chính xác hoặc rất gần trong 67% trường hợp, trong khi các bác sĩ con người chỉ đúng trong khoảng 50%–55%.

Nghiên cứu chỉ ra rằng lợi thế của AI đặc biệt nổi bật trong các tình huống phân loại trong đó thông tin cực kỳ hạn chế và cần có khả năng phán đoán nhanh chóng. Khi AI và bác sĩ được cung cấp thông tin lâm sàng chi tiết hơn, độ chính xác chẩn đoán của AI (sử dụng mô hình suy luận o1 của OpenAI) tiếp tục được cải thiện lên 82%, trong khi độ chính xác của các chuyên gia về con người dao động từ 70%–79%, mặc dù sự khác biệt này không có ý nghĩa thống kê.

Ngoài phân loại cấp cứu, AI còn cho thấy hiệu suất tốt hơn bác sĩ trong việc xây dựng kế hoạch điều trị dài hạn. Trong một thử nghiệm khác, nhóm nghiên cứu đã yêu cầu AI xem xét 5 trường hợp lâm sàng với 46 bác sĩ, với các nhiệm vụ từ thiết kế phác đồ kháng sinh đến lập kế hoạch quản lý dài hạn như quy trình chăm sóc cuối đời. Kết quả cho thấy các phương án điều trị do AI đưa ra đạt điểm cao hơn đáng kể, với số điểm là 89%, trong khi các bác sĩ dựa vào các nguồn truyền thống như công cụ tìm kiếm chỉ đạt được 34%.

Tuy nhiên, các nhà nghiên cứu nhấn mạnh rằng còn lâu mới có thể “thông báo rằng các bác sĩ cấp cứu sẽ bị sa thải”. Nghiên cứu này chỉ so sánh khả năng chẩn đoán của AI và con người ở cấp độ dữ liệu hồ sơ y tế có thể được văn bản hóa và không bao gồm nhiều tín hiệu quan trọng trong các tình huống lâm sàng thực tế, chẳng hạn như biểu hiện đau đớn của bệnh nhân, trạng thái cảm xúc, ngôn ngữ cơ thể và thậm chí cả thông tin phi văn bản như tương tác với các thành viên trong gia đình. Nói cách khác, trong nghiên cứu này, AI gần giống với một “bác sĩ hậu trường” đưa ra ý kiến thứ hai dựa trên thông tin trên giấy.

“Tôi không nghĩ phát hiện của chúng tôi có nghĩa là AI sẽ thay thế bác sĩ,” Arjun Manrai, một trong những tác giả đầu tiên của nghiên cứu và giám đốc Phòng thí nghiệm AI tại Trường Y Harvard, cho biết. “Tôi nghĩ điều đó có nghĩa là chúng ta đang chứng kiến một sự thay đổi công nghệ sâu sắc sẽ định hình lại toàn bộ hệ thống chăm sóc sức khỏe.” Tác giả chính Adam Rodman, bác sĩ lâm sàng tại Trung tâm Y tế Beth Israel Deaconess ở Boston, đã gọi các mô hình ngôn ngữ lớn là “một trong những công nghệ có ảnh hưởng nhất trong những thập kỷ gần đây”. Ông dự đoán rằng trong 10 năm tới, AI sẽ không thay thế bác sĩ mà sẽ hình thành một “mô hình chăm sóc ba bên” mới với bác sĩ và bệnh nhân – “bác sĩ, bệnh nhân và hệ thống trí tuệ nhân tạo”.

Nghiên cứu cũng trình bày một trường hợp lâm sàng điển hình: một bệnh nhân đến bệnh viện với cục máu đông ở phổi và các triệu chứng ngày càng trầm trọng hơn. Các bác sĩ ở người ban đầu đánh giá rằng việc điều trị bằng thuốc chống đông máu không thành công, dẫn đến bệnh tiến triển; nhưng AI đã nhận thấy một điểm quan trọng sau khi đọc bệnh sử – bệnh nhân mắc bệnh lupus ban đỏ, một bệnh tự miễn dịch cũng có thể gây viêm phổi. Sau khi kiểm tra kỹ hơn, suy luận của AI đã được chứng minh là đúng.

Việc ứng dụng AI trong thực hành lâm sàng không chỉ dừng lại ở giai đoạn phòng thí nghiệm. Nó đã được nhiều bác sĩ sử dụng trong thực tế. Theo nghiên cứu gần đây do Hiệp hội Y khoa Hoa Kỳ công bố, gần 1/5 bác sĩ Hoa Kỳ đã đưa các công cụ hỗ trợ AI vào quy trình chẩn đoán của họ. Tại Vương quốc Anh, một cuộc khảo sát mới của Đại học Bác sĩ Hoàng gia cho thấy 16% bác sĩ sử dụng công nghệ như vậy hàng ngày, với 15% khác sử dụng nó một lần hoặc nhiều hơn mỗi tuần, trong đó "hỗ trợ quyết định lâm sàng" là một trong những tình huống sử dụng phổ biến nhất.

Tuy nhiên, các bác sĩ Anh cũng bày tỏ sự cảnh giác cao độ về AI khi được khảo sát, đặc biệt là lo ngại về nguy cơ chẩn đoán sai AI và các vấn đề trách nhiệm pháp lý. Mặc dù hàng tỷ USD đã đổ vào các công ty khởi nghiệp AI y tế trên khắp thế giới, nhưng một khi AI gặp trục trặc thì làm thế nào để xác định trách nhiệm và ai sẽ gánh chịu hậu quả vẫn là một lỗ hổng thể chế cấp bách cần được giải quyết. Rodman chỉ ra: “Hiện tại không có khuôn khổ trách nhiệm chính thức”, đồng thời nhấn mạnh rằng bệnh nhân “cuối cùng muốn được con người hướng dẫn, đồng hành và giải thích” khi phải đối mặt với các quyết định sinh tử hoặc kế hoạch điều trị phức tạp.

Giáo sư Ewen Harrison, đồng giám đốc Trung tâm Tin học Y tế tại Đại học Edinburgh, tin rằng nghiên cứu này rất có ý nghĩa vì nó cho thấy "các hệ thống này không còn chỉ để vượt qua các kỳ thi y tế hay trả lời các câu hỏi kiểm tra được xây dựng nhân tạo". Theo quan điểm của ông, AI đang dần trở thành một “công cụ lấy ý kiến thứ hai” hữu ích cho các bác sĩ lâm sàng, đặc biệt là trong các tình huống cần phân loại toàn diện các chẩn đoán tiềm ẩn và tránh bỏ sót các nguyên nhân quan trọng của bệnh.

Đồng thời, Wei Xing, trợ lý giáo sư tại Trường Toán và Khoa học Vật lý thuộc Đại học Sheffield, Vương quốc Anh, cũng nhắc nhở rằng một số kết quả trong nghiên cứu cho thấy rằng khi các bác sĩ cộng tác với AI, họ có thể vô thức dựa vào kết luận của AI và làm suy yếu tư duy độc lập. Ông lưu ý: “Xu hướng này có thể còn gia tăng hơn nữa khi AI được sử dụng thường xuyên trong môi trường lâm sàng”. Xing Wei cũng nhấn mạnh rằng nghiên cứu không tiết lộ đầy đủ loại bệnh nhân nào AI hoạt động kém hơn, chẳng hạn như việc chẩn đoán bệnh nhân lớn tuổi hay bệnh nhân không phải là người nói tiếng Anh bản xứ khó hơn. Đây là những vấn đề không thể bỏ qua khi đánh giá độ an toàn.

Do đó, mặc dù kết quả của thử nghiệm ở Harvard rất đáng khích lệ nhưng nó không chứng minh rằng AI đủ an toàn để sử dụng thường xuyên và độc lập trong chẩn đoán và điều trị lâm sàng, cũng không có nghĩa là công chúng nên chuyển sang sử dụng các công cụ AI miễn phí để thay thế cho lời khuyên y tế chuyên nghiệp. Trong tương lai gần, AI có nhiều khả năng được sử dụng như một "ống nghe thông minh" và "bộ não thứ hai" hiệu suất cao được đưa vào hệ thống y tế do con người điều khiển, thúc đẩy chẩn đoán và điều trị chính xác và hiệu quả hơn, đồng thời đặt ra các vấn đề mới về trách nhiệm, đạo đức và niềm tin trước xã hội.