Protein là các phân tử tự nhiên thực hiện các chức năng tế bào quan trọng trong cơ thể và là thành phần của mọi bệnh tật. Việc xác định đặc điểm của protein có thể tiết lộ cơ chế gây bệnh, bao gồm các cách làm chậm hoặc đẩy lùi bệnh, đồng thời tạo ra protein có thể dẫn đến sự phát triển các loại thuốc và liệu pháp hoàn toàn mới.

Truy cập:

Cửa hàng chính thức của Microsoft Trung Quốc - Trang chủ

Tuy nhiên, quy trình thiết kế protein trong phòng thí nghiệm hiện nay rất tốn kém xét từ góc độ tính toán và nguồn nhân lực. Nó đòi hỏi phải tìm ra cấu trúc protein thực hiện một nhiệm vụ cụ thể trong cơ thể, sau đó tìm ra trình tự protein (chuỗi axit amin tạo nên protein) có thể "gấp" vào cấu trúc đó. (Protein phải gấp chính xác thành hình dạng ba chiều để thực hiện chức năng dự định của chúng).

Nó không cần phải phức tạp đến thế đâu.

Tuần này, Microsoft đã ra mắt EvoDiff, một khuôn khổ chung mà công ty tuyên bố có thể tạo ra các protein "có độ chính xác cao" và "đa dạng" dựa trên các chuỗi protein. Không giống như các khung tạo protein khác, EvoDiff không yêu cầu bất kỳ thông tin cấu trúc nào của protein mục tiêu, loại bỏ bước thường tốn nhiều công sức nhất.

Nhà nghiên cứu cấp cao của Microsoft Kevin Yang cho biết sau khi EvoDiff có nguồn mở, nó có thể được sử dụng để tạo ra enzyme cho các phương pháp điều trị và phương pháp phân phối thuốc mới, cũng như các enzyme mới cho các phản ứng hóa học công nghiệp.

"Tầm nhìn của chúng tôi là EvoDiff sẽ mở rộng khả năng của kỹ thuật protein ngoài mô hình chức năng cấu trúc và hướng tới thiết kế theo trình tự, có thể lập trình được", Yang, một trong những người đồng sáng tạo của EvoDiff, cho biết trong một cuộc phỏng vấn qua email với TechCrunch. "Với EvoDiff, chúng tôi đã chứng minh rằng chúng tôi có thể không thực sự cần cấu trúc mà thay vào đó là 'trình tự protein là tất cả những gì bạn cần' để thiết kế các protein mới một cách có kiểm soát."

Trọng tâm của khung EvoDiff là mô hình 640 thông số được đào tạo dựa trên dữ liệu từ tất cả các loài và lớp chức năng khác nhau của protein. (Các tham số là những gì mô hình AI học được từ dữ liệu huấn luyện, về cơ bản xác định kỹ năng của mô hình trong việc xử lý vấn đề -- trong trường hợp này là tạo ra protein.) Dữ liệu để huấn luyện mô hình đến từ tập dữ liệu OpenFold về sắp xếp trình tự và UniRef50, một tập hợp con của tập dữ liệu UniProt, cơ sở dữ liệu về trình tự protein và thông tin chức năng do tập đoàn UniProt duy trì. T AGPH67

EvoDiff là mô hình khuếch tán có cấu trúc tương tự như nhiều mô hình tạo hình ảnh hiện đại như khuếch tán ổn định và DALL-E2. EvoDiff học cách loại bỏ dần dần tiếng ồn khỏi protein ban đầu bao gồm gần như hoàn toàn tiếng ồn, cho phép nó tiếp cận chuỗi protein một cách chậm rãi và từng bước. 1? đó là nơi chúng tôi có thể - và nên - tạo ra protein từ trình tự vì chúng tôi có thể đạt được tính linh hoạt, quy mô và tính mô-đun", Ava Amini, một cộng tác viên khác của EvoDiff và là thành viên cấp cao tại Microsoft, cho biết qua email. "Khung khuếch tán của chúng tôi cho phép chúng tôi thực hiện điều này và cũng cho phép chúng tôi kiểm soát cách các protein này được thiết kế để đạt được các mục tiêu chức năng cụ thể."

Theo quan điểm của Amini, EvoDiff không chỉ có thể tạo ra protein mới mà còn lấp đầy "khoảng trống" trong các thiết kế protein hiện có. Ví dụ: nếu một phần nhất định của protein liên kết với một protein khác, mô hình có thể tạo ra chuỗi axit amin protein xung quanh phần đó đáp ứng một loạt tiêu chí.

Bởi vì EvoDiff thiết kế các protein theo "không gian trình tự" thay vì cấu trúc protein, nên nó cũng có thể tổng hợp các "protein bị rối loạn" mà cuối cùng không thể gấp lại thành cấu trúc ba chiều cuối cùng của chúng. Giống như các protein hoạt động bình thường, các protein bị rối loạn đóng vai trò quan trọng trong sinh học và bệnh tật, chẳng hạn như tăng cường hoặc làm giảm hoạt động của các protein khác.

Điều quan trọng cần chỉ ra là nghiên cứu đằng sau EvoDiff chưa được bình duyệt—ít nhất là chưa. Sarah AlAMDari, một nhà khoa học dữ liệu của Microsoft tham gia dự án, thừa nhận rằng “vẫn còn rất nhiều công việc mở rộng quy mô phải thực hiện” trước khi khung này có thể được đưa vào sử dụng thương mại.

Alamdari cho biết qua email: "Đây chỉ là một mô hình tham số 640 triệu, nếu chúng tôi mở rộng quy mô này lên tới hàng tỷ tham số, chúng tôi có thể thấy sự cải thiện về chất lượng của thế hệ. Mặc dù chúng tôi đã trình diễn một số chiến lược chi tiết thô, để đạt được các điều khiển tốt hơn, chúng tôi muốn EvoDiff được điều chỉnh dựa trên văn bản, thông tin hóa học hoặc các phương tiện khác chỉ định chức năng mong muốn. "

Tiếp theo, nhóm EvoDiff dự định thử nghiệm mô hình trên các protein được tạo ra trong phòng thí nghiệm để xem chúng có hoạt động hay không. Nếu nó hoạt động, họ sẽ bắt đầu làm việc trên framework thế hệ tiếp theo.