Những thay đổi về tính toán trong Giải trình tự thế hệ mới (Next-Generation Sequencing)

Tiến sĩ Zhuoyi Huang, nghiên cứu sinh ở phòng thử nghiệm của Tiến sĩ Fuli Yu tại Trung tâm Giải trình tự bản đồ gen người của Trường cao đẳng Y dược Baylor, trao đổi với Biên tập viên, Tiến sĩ Tanuja Koppal về công việc họ đã làm để giải quyết những thách thức tính toán liên quan tới việc phân tích dữ liệu giải trình tự thế hệ mới (NGS) thông lượng cao. Nhóm của họ đã phát triển Atlas2 và SNPTools, hai gói phần mềm cho việc phân tích sự biến dị của bộ gen người và dữ liệu trình tự gen quần thể.

Hỏi: Nhóm của ông hiện đang làm việc trên những loại dự án giải trình tự nào?

 Đáp: Nhóm của chúng tôi tham gia vào việc phát hiện các gen ứng viên, các biến dị di truyền, các nghiên cứu di truyền quần thể và chúng tôi cũng phát triển các công cụ khoa học thông tin để phân tích dữ liệu. Trong những năm qua, chúng tôi đã phát triển một số công cụ khoa học thông tin nổi bật để phát hiện biến dị di truyền, chẳng hạn như Atlas2 và SNPTools. Gần hai năm trước, chúng tôi là một trong số ít các nhóm trên thế giới bắt đầu sử dụng Điện toán đám mây (Amazon Cloud) cho biến dị trong Dự án 1000 bộ gen (1000 Genome Project).

Gần đây, chúng tôi đã phát triển một đường tin phát hiện biến dị nối đầu mới (novel end-to-end variant discovery pipeline) gọi là goSNAP với tính năng mở rộng để sử dụng trong môi trường điện toán lai ghép và dành riêng cho việc phân tích dữ liệu giải trình tự thuần lớn với kích thước mẫu ở quy mô hàng ngàn và xa hơn nữa. Các đường tin goSNAP có thể được triển khai và tối ưu hóa trong các cơ sở hạ tầng điện toán khác nhau, chẳng hạn như dịch vụ điện toán đám mây, các siêu tập đoàn đa quốc gia hoặc thậm chí cụm hàng hóa địa phương, do đó hiệu suất tổng thể không bị hạn chế bởi sự vướng mắc của bất kỳ hệ thống máy tính cụ thể nào. Nó cho phép phát hiện biến dị di truyền, kiểu di truyền và dịch pha của vài ngàn mẫu trong khoảng thời gian một tháng, do đó làm giảm đáng kể thời gian quay vòng xử lý dữ liệu mà không ảnh hưởng chất lượng dữ liệu.

Chúng tôi đã đóng vai trò quan trọng trong việc nghiên cứu các dự án giải trình tự thuần lớn và đa quần thể. Một trong số đó là Dự án 1000 bộ gen nhằm vào những tài liệu tham khảo chi tiết nhất về các biến dị di truyền ở người. Trong dự án này, nhóm của chúng tôi góp phần vào sự phát hiện các nucleotide polymorphism đơn (SNP- single-nucleotide polymorphism) trên 2.500 mẫu (của 26 quần thể từ năm châu lục) cũng như sự phân tích genotype-likelihood của những biến dị được phát hiện. Chúng tôi cũng tham gia vào dự án CHARGE (Thuần tập đối với Nghiên cứu Tim và Lão hóa về Dịch tễ học Di truyền – Cohorts for Heart and Aging Research in Genomic Epidemiology) mà cho đến nay đã giải trình tự được 15.000 mẫu whole-exome wide và 5.000 mẫu whole-genome wide. Tất cả các mẫu trong dự án CHARGE có kiểu hình rất chi tiết được theo dõi trong nhiều thập kỷ và khi kết hợp với các dữ liệu kiểu gen, chúng lý tưởng đối với sự phát hiện của gen ứng viên mới cho các nghiên cứu bệnh phổ biến. Chúng tôi đã phát triển goSNAP để đạt được khuynh hướng biến dị chất lượng cao và dự đoán giá trị của 5.000 mẫu whole-genome sequencing trong sáu tuần cho lần đầu tiên.

Chúng tôi cũng thu thập được dữ liệu giải trình tự có độ bao phủ cực thấp (1X) từ 200 mẫu Nam Á, thuộc tám nhóm quần thể Ấn Độ. Quần thể Ấn Độ có một lịch sử nhân khẩu học rất phức tạp và các haplotype đã không được nghiên cứu cho đến gần đây. Do đó, về mặt khoa học nó rất hấp dẫn để phân tích các dữ liệu trình tự gen của quần thể này. Chúng tôi cũng sử dụng nghiên cứu này như một bằng chứng của khái niệm mà chúng tôi có thể nghiên cứu các di truyền quần thể với dữ liệu phủ sóng cực thấp với sức mạnh của các công cụ phát hiện biến dị của chúng tôi.

Cuối cùng, nhóm của chúng tôi cũng thực hiện phân tích lâm sàng cho các gen cá nhân, ví dụ, các yếu tố VIII trong bệnh rối loạn đông máu (hemophilia) và các bệnh khác bằng cách sử dụng dữ liệu whole-exome sequencing phủ sóng cao. Trong sự hợp tác với các nhóm nghiên cứu khác tại Baylor, chúng tôi cũng thực hiện so sánh các hệ gen bằng cách sử dụng các dữ liệu giải trình tự thông lượng cao của các loài linh trưởng như loài khỉ Rhesus, rất gần với con người về mặt di truyền học. Bằng cách phân tích các biến dị gen của chúng, chúng tôi có thể xác định khoảnh khắc thú vị trong lịch sử nhân khẩu học của loài khỉ Rhesus và nghiên cứu làm thế nào quần thể này tiến hóa qua hàng ngàn, thậm chí hàng triệu năm.

Hỏi: Những xu hướng nào mà ông đang nhìn thấy ở giải trình tự thế hệ mới?

Đáp: Gần đây, chi phí cho giải trình tự đã giảm đi rất nhiều vì những tiến bộ mang tính cách mạng trong công nghệ giải trình tự. Bây giờ, ta có thể thực hiện whole-genome sequencing với ít hơn $1.000 cho mỗi bộ gen và các trung tâm giải trình tự lớn nhất hiện nay có khả năng sắp xếp trình tự của hàng chục đến hàng trăm ngàn cá thể mỗi năm. Nhiều công ty trong giai đoạn khởi nghiệp đang thu thập các mẫu DNA từ các bệnh nhân cho việc theo đuổi các cách chẩn đoán và điều trị. Rất nhiều công ty công nghệ thông tin (CNTT) đang tập trung vào phát triển cơ sở dữ liệu để phân tích và vận dụng lượng lớn dữ liệu được tạo ra. Khi giải trình tự được nhanh hơn và rẻ hơn, các hệ gen cá nhân sẽ trở nên thực tế hơn và sẽ có lợi cho rất nhiều người, từ các cá thể đến các quần thể lớn.  Các nghiên cứu quy mô lớn, cả về kích thước mẫu và về whole-genome sequencing so với giải trình tự mục tiêu, có thể giúp chúng tôi hiểu được lịch sử nhân khẩu học quần thể, sự phát triển của bệnh tật và các đột biến trong quần thể. Nhiều tập đoàn đang cùng nhau thu thập và tổng hợp các mẫu từ các thuần tập lớn để thực hiện các nghiên cứu chuyên sâu mà sẽ cung cấp một cơ hội để nghiên cứu biến dị di truyền và gen cực kỳ hiếm và cụ thể tới các quần thể nhất định.

Hỏi: Ông có thể giải thích về một số thách thức mà ông đang gặp phải không?

Đáp: Các phương pháp giải trình tự thông lượng cao như thế cung cấp nhiều cơ hội nhưng cũng làm tăng những thách thức. Xét về những thách thức tính toán kết quả từ số lượng lớn dữ liệu, chúng tôi phải giảm bớt thời gian để xử lý và phân tích dữ liệu. Hiện nay, chúng tôi có thể thực hiện whole-exome sequencing trong một vài giờ và whole-genome sequencing trong một ngày cho một cá thể. Nhưng một khi bạn có hàng ngàn hoặc hàng triệu mẫu, chắc chắn sẽ mất một lượng đáng kể thời gian và tài nguyên máy tính, đặc biệt khi cần để duy trì hoặc thậm chí cải thiện chất lượng của các kết quả. Vì vậy, nó rất quan trọng trong nỗ lực làm giảm chi phí tính toán của việc sắp dãy, phát hiện biến dị, chú thích cho các dự án giải trình tự quy mô lớn. Mặt khác, khi bạn đang tổng hợp một lượng lớn giải trình tự không đồng nhất hoặc dữ liệu biến đổi, ngày càng trở nên thách thức trong việc củng cố và phân tích chúng. Trong vài năm tới, con người sẽ tập trung vào việc phát triển cơ sở dữ liệu, tạo điều kiện cho việc giải thích và sắp xếp dựa trên sự ưu tiên dữ liệu. Sự tạo ra và thu thập dữ liệu chỉ là một khía cạnh, việc chuyển dữ liệu thành kiến ​​thức có thể được áp dụng trong một thử nghiệm lâm sàng và cho y học cá nhân thậm chí còn quan trọng hơn. Chúng tôi sẽ cần phải cải tiến nhiều hơn trong công nghệ thông tin và cơ sở dữ liệu để thực hiện điều này.

Một thách thức khác là làm thế nào để cập nhật một cách hiệu quả và truy vấn cơ sở dữ liệu. Trong thời đại giải trình tự thông lượng cao, cơ sở dữ liệu đã được mở rộng để có thể cập nhật liên tục theo thời gian thực , vì vậy mà hàng triệu nhà nghiên cứu và các bác sĩ có thể truy vấn cơ sở dữ liệu cập nhật một cách nhanh chóng. Nếu có tính không đồng nhất trong các dữ liệu thì việc tích hợp nhiều cơ sở dữ liệu cũng trở thành một thách thức. Thay vì lưu trữ tất cả mọi thứ, bạn phải giữ lại một cách hiệu quả chỉ những dữ liệu cần thiết để phân tích xuôi dòng. Tất cả đều liên quan sâu tới định dạng dữ liệu và cấu trúc cơ sở dữ liệu, một vấn đề quan trọng khi nói đến việc phân tích dữ liệu lớn.

Hỏi: Ông có bất cứ lời khuyên nào cho các nhà quản lý phòng thử nghiệm làm việc trong lĩnh vực này không?

Đáp: Là một nhà quản lý, bạn phải suy nghĩ và có một tầm nhìn rộng lớn hơn với những phát triển mang tính cách mạng trong công nghệ. Rất hữu ích khi cộng tác với các nhóm khác nhau để trở nên quen thuộc với các cơ sở dữ liệu công cộng và nếu có thể, tham gia vào các dự án thuần tập lớn. Đặc biệt, khi làm việc với giải trình tự thông lượng cao, bạn phải kiểm soát các thay đổi diễn ra trên cả giải trình tự và khoa học thông tin. Trong khi chi phí giải trình tự sẽ tiếp tục giảm thì chi phí cho khoa học thông tin sẽ tăng đáng kể nếu các công cụ tính toán truyền thống được sử dụng theo cách không thể mở rộng hoặc nếu các công nghệ điện toán mới và các nguồn lực không được khai thác một cách hiệu quả. Điều này có thể không được nhấn mạnh nhiều trong quá khứ nhưng ngày nay sự tiến bộ của một số khía cạnh tin học – chẳng hạn như cơ sở dữ liệu, khả năng mở rộng và tính toán hiệu suất cao – chắc chắn sẽ đem lại lợi ích cho các nhà quản lý phòng thử nghiệm trong các dự án liên quan tới giải trình tự thế hệ mới.

Theo VinaLab