Tập trung vào nghiên cứu cấp tốc về các protein chưa xác định: cơ sở dữ liệu di truyền của con người mà chúng ta hầu như không biết gì về

Các nhà nghiên cứu người Anh đã phát triển một cơ sở dữ liệu mới có thể truy cập công khai mà họ hy vọng sẽ thu hẹp lại theo thời gian. Đó là bởi vì cơ sở dữ liệu tập hợp hàng nghìn protein chưa được nghiên cứu kỹ lưỡng được mã hóa bởi các gen trong bộ gen của con người, sự tồn tại của chúng được biết đến nhưng chức năng của chúng hầu như chưa được biết đến.

Cơ sở dữ liệu này, được gọi là "unknome", là kết quả nghiên cứu của Matthew Freeman thuộc Trường Bệnh học Dunn, Đại học Oxford, Vương quốc Anh và Sean Munro thuộc Phòng thí nghiệm Sinh học Phân tử MRC, Cambridge, Vương quốc Anh và các đồng nghiệp của họ. Họ đã nghiên cứu một số protein trong cơ sở dữ liệu và phát hiện ra rằng hầu hết đều đóng góp vào các chức năng quan trọng của tế bào, bao gồm cả sự phát triển và khả năng chống stress.

Trình tự bộ gen của con người cho thấy rõ ràng rằng bộ gen của con người mã hóa hàng nghìn chuỗi protein có thể có mà danh tính và chức năng của chúng vẫn chưa được biết rõ. Lý do cho điều này là do nhiều yếu tố, bao gồm xu hướng tập trung nguồn tài trợ nghiên cứu khan hiếm vào các mục tiêu đã biết và thiếu công cụ, bao gồm cả kháng thể, để nghiên cứu chức năng của các protein này trong tế bào.

Nhưng các tác giả tin rằng việc bỏ qua các protein này là rủi ro vì có thể một số, có lẽ là nhiều, đóng vai trò quan trọng trong các quá trình quan trọng của tế bào và có thể vừa cung cấp cái nhìn sâu sắc vừa đóng vai trò là mục tiêu cho sự can thiệp điều trị.

Để tạo điều kiện khám phá nhanh hơn loại protein này, các tác giả đã tạo ra cơ sở dữ liệu chưa xác định, trong đó gán cho mỗi protein một điểm "đã biết" phản ánh thông tin trong tài liệu khoa học về chức năng, bảo tồn giữa các loài, phân chia ngăn dưới tế bào và các yếu tố khác.

Theo hệ thống này, có hàng nghìn protein có "mức độ đã biết" gần bằng 0. Chúng bao gồm các protein từ các sinh vật mẫu cũng như các protein từ bộ gen của con người. Cơ sở dữ liệu mở cho tất cả mọi người và có thể tùy chỉnh, cho phép người dùng cung cấp trọng số của riêng họ cho các yếu tố khác nhau và do đó tạo ra tập hợp điểm số nổi tiếng của riêng họ để ưu tiên nghiên cứu của riêng họ.

Để kiểm tra tính hữu ích của cơ sở dữ liệu, các tác giả đã chọn 260 gen ở người có gen tương tự ở ruồi và có điểm biết đến là 1 hoặc ít hơn ở cả hai loài, cho thấy rằng hầu như không có thông tin gì về chúng. Việc loại bỏ hoàn toàn nhiều gen này là không tương thích với đời sống ruồi; Việc loại bỏ một phần hoặc mô cụ thể đã tiết lộ rằng hầu hết các gen đều đóng góp vào các chức năng quan trọng ảnh hưởng đến khả năng sinh sản, sự phát triển, tăng trưởng mô, kiểm soát chất lượng protein hoặc khả năng chống stress.

Các phát hiện cho thấy rằng bất chấp nhiều thập kỷ nghiên cứu chi tiết, hàng nghìn gen của ruồi vẫn được hiểu rõ ngay cả ở mức cơ bản nhất, và điều tương tự rõ ràng cũng xảy ra với bộ gen của con người. Munro nói: “Không nên bỏ qua những gen không có đặc tính này. "Cơ sở dữ liệu của chúng tôi cung cấp một nền tảng mạnh mẽ, linh hoạt và hiệu quả để xác định và lựa chọn các gen quan trọng có chức năng chưa biết để phân tích, từ đó đẩy nhanh việc thu hẹp khoảng cách kiến thức sinh học được đại diện bởi các bộ gen chưa biết." "

Munro nói thêm:"Vai trò của hàng nghìn protein ở người vẫn chưa rõ ràng, nhưng nghiên cứu có xu hướng tập trung vào những protein đã được hiểu rõ. Để giúp giải quyết vấn đề này, chúng tôi đã tạo cơ sở dữ liệu 'Unknome', xếp hạng các protein theo mức độ biết về chúng, sau đó sàng lọc chức năng một số protein bí ẩn này để cho thấy sự thiếu hiểu biết thúc đẩy khám phá sinh học như thế nào. "