<dontcry>
Loạt bài về Phylogenomics, Phylogeny của anh lonxon hiện có các link sau:
1. Bài này: Giới thiệu về phylogenomics
2. Giới thiệu về Phylogeny, các bước cơ bản tiến hành
--------------------------------------------------
Theo lịch thì đến tuần sau tui sẽ cò bài thảo luận, do nội dung tui trình bày thiên về Phylognetics mà e là nhiều vấn đề lý thuyết kô ít người chưa gặp qua. Vậy tui tạm post từng phần lý thuyết nhằm giúp mọi người tiếp cận dần lý thuyết cơ bản của Phylogenetics. Mỗi ngày tui post một ít cho mọi người đọc đỡ ngàn. Đọc chơi để biết.
Giới thiệu về phylogenomics – và tiến trình tái lập cây sự sống.
Việc tìm hiểu mối quan hệ phát sinh chủng lòai giữa các lòai sinh vật là một điều kiện tiên quyết của hầu hết bất kỳ nghiên cứu tiến hóa nào, theo hướng cho rằng tất cả các lòai sinh vật hiện hữu đều dang chia sẽ một lịch sử tiến hóa chung thông qua tổ tiên của chúng. Lịch sử nghiên cứu phát sinh chủng lòai mặc dù đã có từ rất lâu nhưng có thể xem chính Charles Darwin trong tác phẩm nổi tiếng của ông „Nguồn gốc các lòai“ (The Origin of Species) chính là người đặt viên gạch chính thức đầu tiên khi ông mô tả lý thuyết tiến hóa của mình.
Ngày nay, phát sinh chủng lòai – hiểu theo một nghĩa đầy đủ đó là tái tạo lịch sử tiến hóa – dựa trên các phương pháp tóan học nhằm suy luận lịch sử tiến hóa sự sống trên hành tinh chúng ta. Việc tái cấu trúc này liên quan đến việc nhận diện chỉ định những đặc tính đồng dạng - HOMOLOGOUS CHARACTERS- được chia sẻ giữa các lòai sinh vật khác nhau và suy luận cây phát sinh chủng lòai từ việc so sánh các đặc tính thông qua việc sử dụng các phương pháp tái cấu trúc có độ tin cậy cao. Độ chính xác của quá trình suy luận vì thế phụ thuộc rất lớn vào độ tin cậy của các mô hình dùng để đánh giá sự tiến hóa của các đặc tính này. Tuy nhiên điều cần lưu ý là cho đến nay các cơ chế tiến hóa vẫn chưa được hiểu biết đầy đủ, nói cách khác người ta vẫn chưa thể tường tận vì sao các đặc tính này tiến hóa, do đó việc tái cấu trúc lịch sử tiến hóa trên trái đất chúng ta chủ yếu dựa trên các lòai sinh vật đang tồn tại do vậy gặp rất nhiều khó khăn.
Trước thập kỷ 1970s, việc tái tạo cây tiến hóa chủ yếu dựa trên phân tích hình thái và các đặc tính siêu cấu trúc. Sở dĩ người ta lấy mốc 1970s là vào thời kỳ này các kỹ thuật sinh học phân tử bùng nổ mạnh mẽ cho phép người ta đọc trình tự DNA và protein. Việc so sánh hình thái của các bằng chứng hóa thạch và các lòai đang còn tồn tại đã cung cấp nhiều kết quả rất có giá trị, ví dụ như nhờ đó mà việc xác lập các nhóm động vật thực chính được tiến hành khá tốt. Tuy nhiên khuynh hướng so sánh hình thái tỏ ra không có ý nghĩa khi nghiên cứu trên các sinh vật hiển vi vì người ta không thể tìm được những bằng chứng hóa thạch hay những đặc tính đồng dạng đáng tin cậy từ việc so sánh hình thái.
Ngành nghiên cứu phát sinh chủng lọai thực sự bước vào một cuộc cách mạng khi các dữ liệu phân tử ra đời. Trong nửa cuối thập niên 1980 nguồn dữ liệu trình tự DNA gia tăng đồng nghĩa với việc gia tăng các đặc tính đồng dạng từ đó giúp nhà nghiên cứu có được những công cụ mạnh mẽ và nhanh chóng giải quyết vác bài tóan phát sinh chủng lòai đang chưa có lời giải. Một vài gene hoặc nhóm gene trở thành gene hay nhóm gene chuẩn cho việc phân tích. Những gene chuẩn này có chung một điểm đó là mức độ bảo tồn của chúng khá cao xuyên suốt tất cả các lòai sinh vật. Gene SSU rRNA - small subunit ribosomal RNA - là gene được sử dụng nhiều nhất cho việc phân lọai vi sinh vật và cho phép nhận diện Archaea như là một giới biệt lập riêng rẽ trong thế giới sự sống bên cạnh Vi khuẩn và Eukaryote. Tuy nhiên khi tiến hành phân tích bằng cách sử dụng nhiều gene thì người ta nhận thấy kết quả thu được không hòan tòan giống với kết quả sử dụng một gene đơn lẻ. Hơn nữa việc sử dụng một gene đơn kẻ không đủ sức cung cấp giá trị thống kê đủ mạnh cho một NODE nào đó trong cây tiến hóa. Do đó hậu quả là nhiều phần trên cây tiến hóa vẫn chưa được thiết lập một cách rõ nét do thiếu những dữ liệu đáng tin cậy.
Điều khó khăn tưởng không vượt qua được (thiếu dữ liệu giá trị) lại được giải quyết một cách rất tình cờ khi hàng tỷ cặp base trình tự thông tin được hình thành từ những dự án giải mã bộ gene ở mọi quy mô từ một vài gene đơn lẻ cho đến cả một bộ gene của một hay nhiều sinh vật. Sự bùng nổ thông tin này, một lần nữa tạo nên một làn sóng nghiên cứu mới trong lĩnh vực nghiên cứu tiến hóa, nó còn có thể đánh dấu sự khai sinh một lĩnh vực mới PHYLOGENOMIC –dùng cơ sở nền tảng lý thuyết của ngành phylogenetics trước đây để tạo nên ý nghĩa cũa dữ liệu genome. Một phân nhánh của phylogenomics là sử dụng dữ liệu genome để tái tạo lại lịch sử tiến hóa của sinh vật. Như vậy việc hiểu được ý nghĩa của PHYLOGENOMICS là cực kỳ quan trọng với các nhà sinh học hiện đại. Có thể hiểu rằng, nếu trước đây các nhà nghiên cứu xem một sinh vật như một thực thể cần nghiên cứu và họ dùng các đặc tính hình thái, di truyền để nghiên cứu sự tiến hóa thì nay, ở kỷ nguyên genome, người ta xem genome là một thực thể cần nghiên cứu quá trình tiến hóa của genome này, đồng thời sử dụng các đặc tính khác để bổ sung hòan chỉnh cho lịch sử tiến hóa của bộ gene. Đến đây chúng tôi tạm dịch phylogenomics là sự phát sinh genome.
Bài này sẽ cung cấp những thông tin sơ lược về các phương pháp được sử dụng để nghiên cứu phylogenomics và phân tích những mặt mạnh mặt yếu của từng phương pháp.
CÁC PHƯƠNG PHÁP HIỆN NAY TRONG LĨNH VỰC NGHIÊN CỨU PHÁT SINH GENOME
Trong việc suy luận phát sinh chủng lòai cổ điển, có 2 bước cơ bản đó là:
- Nhóm các phương pháp khỏang cách - Distance methods: những phương pháp này sẽ biến ma trận đặc tính thành ma trận khỏang cách với ý nghĩa khỏang cách chính là khỏang cách tiến hóa giữa các cặp đối tượng đang được so sánh. Khi đó cây tiến hóa sẽ được suy luận từ ma trận khỏang cách này bằng cách sử dụng các thuật tóan tương ứng như liên kế hàng xóm cận kề - neighbour joining NJ - hoặc tiến hóa tối thiểu - minimum evolution ME.
- Nhóm phương pháp hà tiện đến mức tối đa -Maximum parsimony MP: phương pháp này sẽ chọn lựa cây tiến hóa thỏa điều kiện là số lượng đặc tính bị biến đổi phải thấp nhất để giải thích những dữ liệu đã quan sát được.
- Nhóm phương pháp khả năng xác suất - Likelihood methods: nhóm phương pháp này dựa trên một hàm tóan học tính tóan xác suất khả năng một cây tiến hóa được tạo thành từ dữ liệu đã quan sát. Hàm này cho phép việc tích hợp các quá trình tiến hóa của đặc tính thành mô hình xác suất. Phương pháp xác xuất tối đa - Maximum likelihood ML- chọn lựa cây tiến hóa tối đa mà khi quan sát các dữ liệu dưới một mô hình nào đó nó có xác xuất tối đa. Trong nhóm này còn có phương pháp Baye. Phương pháp Bayes khác phương pháp ML ở chỗ thay vì tìm kiếm đỉnh cao nhất (xác suất tối đa) từ không gian các thông số đã cho như phương pháp ML, phương pháp Bayes lại tích hợp các thông số lại với nhau.
Trong nghiên cứu phát sinh genome thì hai bước này giữ nguyên như một nguyên lý tổng quát.
Như vậy cũng giống như nghiên cứu phát sinh chủng lòai vốn dựa trên dữ liệu hình thái và những gene đơn lẻ thì độ tin cậy của cây phát sinh genome cũng phụ thuộc vào chất lượng của đặc tính được chọn và độ chính xác của phương pháp dùng để phân tích, tái lập cây tiến hóa. Về mặt lý thuyết, những đặc tính đáng tin cậy có thể xem là những đặc tính có ít sự thay đổi nhất xuyên suốt thời gian (lý tưởng nhất là chỉ có một thay đổi). Nếu những đặc tính mang quá nhiều sự biến đổi, nó có thể tạo nên cái gọi là sự tương đồng HOMOPLASY thông qua hình thức hội tụ CONVERGENCE hay nghịch đảo REVERSAL khiến cho dấu hiệu phát sinh chủng lọai không được rõ nét. Sự tương đồng là thuật ngữ dùng để chỉ hai hay nhiều trình tự đặc tính (ví dụ trình tự DNA) không xuất phát từ cùng một tổ tiên chung (tức là không đồng dạng HOMOLOGOUS) nhưng chúng lại giống nhau do quá trình tiến hóa hội tụ mang lại – ví dụ như cánh dơi và cánh chim là một dạng homoplasy, thuật ngữ HOMOPLASY cũng gần nghĩa với SIMILARITY – sự tương tự.
Ba nhóm phương pháp dùng để tái lập cây tiến hóa trong nghiên cứu phát sinh chủng lòai cũng được biến đổi để áp dụng trong nghiên cứu phát sinh genome. Phương pháp tái lập cây phát sinh genome có thể phân chia thành phương pháp dựa trên trình tự và phương pháp dựs trên thuộc tính tòan bộ genome (sequence-based methods and methods based on whole-genome features). Lúc đầu phương pháp dựa trên tòan bộ thuộc tính genome được ưu ái sử dụng khá rộng rãi, tuy nhiên nhiều nghiên cứu gần đây đã đánh giá lại phương pháp này. Kết quả là phương pháp dựa trên sự sắp xếp nhiều gene ại trở thành phương pháp được lựa chọn ưu tiên. Ngòai ta còn một phương pháp nữa đó là phương pháp đánh giá sự hiếm thay đổi trong genome (rare genomic changes).
PHƯƠNG PHÁP DỰA TRÊN TRÌNH TỰ - SEQUENCE-BASED METHODS
Số lượng đặc tính đối nghịch với số lượng lòai
Phương pháp nghiên cứu phát sinh genome dựa trên trình tự là phương pháp dựa trên quá trình so sánh trình tự sơ cấp từ đó cây phát sinh chủng lòai được suy luận từ quá trình so sánh thẳng hàng đa trình tự. Phương pháp này ra đời khỏang năm 2000 khi những nghiên cứu đầu tiên bắt đầu dùng một chuỗi dưới 20 gene để tiến hành phân tích. Sau đó một vài nghiên cứu sử dụng chuỗi dữ liệu với hơn 100 gene cũng được tiến hành. Nhưng nếu trong các việc thực nghiệm sử dụng một gene đơn lẻ nhà nghiên cứu sẽ có số lòai đại diện đủ để tiến hành thì trong nghiên cứu dùng chuỗi dữ liệu nhiều gene họ lại gặp hạn chế đó thì số lòai có nhiều gene được giải trình lại không nhiều. Hơn nữa lúc này công cụ máy tính chưa đủ mạnh để tiến hành các phân tích phức tạp này.
Một trong những vấn đề gây tranh cãi mạnh mẽ nhất trong lĩnh vực nghiên cứu phát sinh chủng lòai đó là để tăng độ chính xác lên mức cao nhất người ta phải tăng số lượng đặc tính (trong trường hợp này là gene) hay tăng số lượng lòai được lấy mẫu. Các dữ liệu thu được lại lập lờ nước đôi. Với các nhà nghiên cứu theo trường phái chủ nghĩa kinh nghiệm thì việc gia tăng số lòai đại diện có ý nghĩa quyết định. Một nhóm các nhà nghiên cứu khác lại có khuynh hướng sử dụng biện pháp an tòan đó là với các lòai đã có bộ gene được giải trình tự tòan bộ họ sẽ tăng số gene trong chuỗi dữ liệu của họ. Tuy nhiên một thực tế cho thấy nếu kết hợp dữ liệu gene với số lòai có gene được giải trình tự thì ta sẽ có một khối dữ liệu lớn nhất nhưng lại mang tính bất đối xứng. Nghĩa là khá nhiều lòai chỉ có vài gene được giải trình và ngược lại có vài lòai lại có nhiều hay tòan bộ genome được giải trình. Vì vậy một điều kiện lý tưởng là nhiều lòai có nhiều gene được giải trình tự.
Siêu ma trận và siêu cây
Khi việc so sánh sắp xếp thẳng hàng nhiều gene đã được thiết lập cho một chuỗi dữ liệu chọn trước, thì sau đó có 2 khuynh hướng đồng thời có thể được sử dụng để tái lập cây phát sinh genome.
Một trong những nguyên tắc cơ bản của việc sử dụng chuỗi dữ liệu có liên quá đó là các dữ liệu này tạo nên một dạng bằng chứng tuyệt đối, do vậy chiến thuật phổ biến nhất đó là phân tích siêu ma trận được tạo thành từ sự liên kết các gene đơn lẻ. Việc tính tóan siêu ma trận này dựa trên phương pháp dựa trên trình tự tiêu chuẩn.
Tuy nhiên thực tế cho thấy không phải các lòai đại diện cũng có tất cả gene nghiên cứu phải được giải trình tự đầy đủ. Do vậy những trình tự bị thiếu ở một lòai nào đó có thể thay thế bằng một dấu hỏi. Câu hỏi đặt ra là liệu những dữ liệu bị thiếu này có ảnh hưởng đến kết quả tái lập cây tiến hóa hay không? Nhiều nghiên cứu thực nghiệm lọai bỏ từ 12,5 % đến 25% dữ liệu cho thấy rằng chúng không làm giảm độ chính xác của cây tiến hóa. Các tác giả cho rằng các dữ liệu bị thiếu có thể được thay thế bù trù từ những thông tín khác. Thực tế lại cho thấy nếu một lòai chỉ có 10 gene đại diện trong chuỗi dữ liệu 100 gene thì vấn đề lại không nghiêm trọng bằng việc không đưa lòai này vào danh sách lấy mẫu. Theo các nhà nghiên cứu, khuynh hướng siêu ma trận tỏ ra ưu việc trong việc tái lập cây tiến hóa bất chấp thông tin trình tự không đầy đủ. Có được điều này là do chuỗi dữ liệu phân tích có thể được thiết kế bằng cách kết hợp khai thác dữ liệu hiện có hoặc sử dụng các thông tin trình tự dưới dạng cDNA và EST. Do vậy khuynh hướng này cho phép tăng số lượng lòai lấy mẫu thay vì giới hạn một số lòai có bộ gene được giải đầy đủ.
Một khuynh hướng nghiên cứu phát sinh genome dựa trên trình tự khác đó là phân tích từng khối dữ liệu riêng rẽ (ví dụ như gene) sau đó kết hợp các cây kết quả riêng rẽ này thành một „siêu cây“. Điều đòi hỏi tiên quyết cho khuynh hướng này là các cây kết quả riêng lẻ phải có phần giao nhau để đảm bảo độ tin cây lắp ghép các cây thành phần thành siêu cây.
Các phương pháp khác nhau dùng cho việc thiết lập siêu cây đã được đưa ra khá nhiều, do bản chất của phương pháp này khá đơn giản và vì vậy có thể sử dụng phương pháp MP để thiết lập ma trận.
Khuynh hướng siêu cây cho thấy nó có ý nghĩa rất lớn khi nguồn dữ liệu phân tích vốn rời rạc không liên tục ví dụ trên cùng một nhóm đối tượng người ta vừa có dữ liệu hình thái vừa có dữ liệu phân tử. Khuynh hướng tạo siêu cây cho kết quả rất tốt khi nghiên cứu sự phát sinh chủng lòai của lòai thú có nhau thai. Tuy nhiên điều lạ lùng là khuynh hướng này lại không mấy thành công khi nghiên cứu sự phát sinh chủng lòai của vi khuẩn và một số lòai Eukaryote hiện đại mà những lòai này có bộ gene được giải hòan chỉnh. Mặc dù vậy, việc tái lập siêu cây tiến hóa có vẻ là một lựa chọn thú vị không chỉ cho các nghiên cứu hiện tại mà còn hứa hẹn cả tương lai do nó cho phép kết hợp các dạng dữ liệu khác nhau đã có trong quá khứ, hiện tại và sẽ thu được trong tương lai.
Nhiều nghiên cứu so sánh giữa hai khuynh hướng này cho thấy kết quả có những điểm đáng lưu ý. Ví dụ khi nghiên cứu sự phát sinh chủng lòai nhóm cá sâu thù khuynh hướng dựa trên siêu ma trận cho kết quả tốt hơn khuynh hướng siêu cây. Nhưng nghiên cứu tiến hóa của các lòai cỏ thì hai khuynh hướng lại cho kết quả như nhau. Tuy nhiên việc so sánh 2 khuynh hướng này không phải dễ do mỗi khuynh hướng khác nhau lại dùng một dạng dữ liệu khác nhau. Đó là điều mà các nhà nghiên cứu nhận thấy khi nghiên cứu sự phát sinh chủng lòai ở vi khuẩn, hai khuynh hướng lại cho những kết quả tương tự mặc dù hai khuynh hướng lại dựa trên chuỗi dữ liệu khác nhau.
Loạt bài về Phylogenomics, Phylogeny của anh lonxon hiện có các link sau:
1. Bài này: Giới thiệu về phylogenomics
2. Giới thiệu về Phylogeny, các bước cơ bản tiến hành
--------------------------------------------------
Theo lịch thì đến tuần sau tui sẽ cò bài thảo luận, do nội dung tui trình bày thiên về Phylognetics mà e là nhiều vấn đề lý thuyết kô ít người chưa gặp qua. Vậy tui tạm post từng phần lý thuyết nhằm giúp mọi người tiếp cận dần lý thuyết cơ bản của Phylogenetics. Mỗi ngày tui post một ít cho mọi người đọc đỡ ngàn. Đọc chơi để biết.
Giới thiệu về phylogenomics – và tiến trình tái lập cây sự sống.
Việc tìm hiểu mối quan hệ phát sinh chủng lòai giữa các lòai sinh vật là một điều kiện tiên quyết của hầu hết bất kỳ nghiên cứu tiến hóa nào, theo hướng cho rằng tất cả các lòai sinh vật hiện hữu đều dang chia sẽ một lịch sử tiến hóa chung thông qua tổ tiên của chúng. Lịch sử nghiên cứu phát sinh chủng lòai mặc dù đã có từ rất lâu nhưng có thể xem chính Charles Darwin trong tác phẩm nổi tiếng của ông „Nguồn gốc các lòai“ (The Origin of Species) chính là người đặt viên gạch chính thức đầu tiên khi ông mô tả lý thuyết tiến hóa của mình.
Ngày nay, phát sinh chủng lòai – hiểu theo một nghĩa đầy đủ đó là tái tạo lịch sử tiến hóa – dựa trên các phương pháp tóan học nhằm suy luận lịch sử tiến hóa sự sống trên hành tinh chúng ta. Việc tái cấu trúc này liên quan đến việc nhận diện chỉ định những đặc tính đồng dạng - HOMOLOGOUS CHARACTERS- được chia sẻ giữa các lòai sinh vật khác nhau và suy luận cây phát sinh chủng lòai từ việc so sánh các đặc tính thông qua việc sử dụng các phương pháp tái cấu trúc có độ tin cậy cao. Độ chính xác của quá trình suy luận vì thế phụ thuộc rất lớn vào độ tin cậy của các mô hình dùng để đánh giá sự tiến hóa của các đặc tính này. Tuy nhiên điều cần lưu ý là cho đến nay các cơ chế tiến hóa vẫn chưa được hiểu biết đầy đủ, nói cách khác người ta vẫn chưa thể tường tận vì sao các đặc tính này tiến hóa, do đó việc tái cấu trúc lịch sử tiến hóa trên trái đất chúng ta chủ yếu dựa trên các lòai sinh vật đang tồn tại do vậy gặp rất nhiều khó khăn.
Trước thập kỷ 1970s, việc tái tạo cây tiến hóa chủ yếu dựa trên phân tích hình thái và các đặc tính siêu cấu trúc. Sở dĩ người ta lấy mốc 1970s là vào thời kỳ này các kỹ thuật sinh học phân tử bùng nổ mạnh mẽ cho phép người ta đọc trình tự DNA và protein. Việc so sánh hình thái của các bằng chứng hóa thạch và các lòai đang còn tồn tại đã cung cấp nhiều kết quả rất có giá trị, ví dụ như nhờ đó mà việc xác lập các nhóm động vật thực chính được tiến hành khá tốt. Tuy nhiên khuynh hướng so sánh hình thái tỏ ra không có ý nghĩa khi nghiên cứu trên các sinh vật hiển vi vì người ta không thể tìm được những bằng chứng hóa thạch hay những đặc tính đồng dạng đáng tin cậy từ việc so sánh hình thái.
Ngành nghiên cứu phát sinh chủng lọai thực sự bước vào một cuộc cách mạng khi các dữ liệu phân tử ra đời. Trong nửa cuối thập niên 1980 nguồn dữ liệu trình tự DNA gia tăng đồng nghĩa với việc gia tăng các đặc tính đồng dạng từ đó giúp nhà nghiên cứu có được những công cụ mạnh mẽ và nhanh chóng giải quyết vác bài tóan phát sinh chủng lòai đang chưa có lời giải. Một vài gene hoặc nhóm gene trở thành gene hay nhóm gene chuẩn cho việc phân tích. Những gene chuẩn này có chung một điểm đó là mức độ bảo tồn của chúng khá cao xuyên suốt tất cả các lòai sinh vật. Gene SSU rRNA - small subunit ribosomal RNA - là gene được sử dụng nhiều nhất cho việc phân lọai vi sinh vật và cho phép nhận diện Archaea như là một giới biệt lập riêng rẽ trong thế giới sự sống bên cạnh Vi khuẩn và Eukaryote. Tuy nhiên khi tiến hành phân tích bằng cách sử dụng nhiều gene thì người ta nhận thấy kết quả thu được không hòan tòan giống với kết quả sử dụng một gene đơn lẻ. Hơn nữa việc sử dụng một gene đơn kẻ không đủ sức cung cấp giá trị thống kê đủ mạnh cho một NODE nào đó trong cây tiến hóa. Do đó hậu quả là nhiều phần trên cây tiến hóa vẫn chưa được thiết lập một cách rõ nét do thiếu những dữ liệu đáng tin cậy.
Điều khó khăn tưởng không vượt qua được (thiếu dữ liệu giá trị) lại được giải quyết một cách rất tình cờ khi hàng tỷ cặp base trình tự thông tin được hình thành từ những dự án giải mã bộ gene ở mọi quy mô từ một vài gene đơn lẻ cho đến cả một bộ gene của một hay nhiều sinh vật. Sự bùng nổ thông tin này, một lần nữa tạo nên một làn sóng nghiên cứu mới trong lĩnh vực nghiên cứu tiến hóa, nó còn có thể đánh dấu sự khai sinh một lĩnh vực mới PHYLOGENOMIC –dùng cơ sở nền tảng lý thuyết của ngành phylogenetics trước đây để tạo nên ý nghĩa cũa dữ liệu genome. Một phân nhánh của phylogenomics là sử dụng dữ liệu genome để tái tạo lại lịch sử tiến hóa của sinh vật. Như vậy việc hiểu được ý nghĩa của PHYLOGENOMICS là cực kỳ quan trọng với các nhà sinh học hiện đại. Có thể hiểu rằng, nếu trước đây các nhà nghiên cứu xem một sinh vật như một thực thể cần nghiên cứu và họ dùng các đặc tính hình thái, di truyền để nghiên cứu sự tiến hóa thì nay, ở kỷ nguyên genome, người ta xem genome là một thực thể cần nghiên cứu quá trình tiến hóa của genome này, đồng thời sử dụng các đặc tính khác để bổ sung hòan chỉnh cho lịch sử tiến hóa của bộ gene. Đến đây chúng tôi tạm dịch phylogenomics là sự phát sinh genome.
Bài này sẽ cung cấp những thông tin sơ lược về các phương pháp được sử dụng để nghiên cứu phylogenomics và phân tích những mặt mạnh mặt yếu của từng phương pháp.
CÁC PHƯƠNG PHÁP HIỆN NAY TRONG LĨNH VỰC NGHIÊN CỨU PHÁT SINH GENOME
Trong việc suy luận phát sinh chủng lòai cổ điển, có 2 bước cơ bản đó là:
- chỉ định những đặc tính đồng dạng – HOMOLOGY- là những đặc tính chung truyền từ một tổ tiên chung cho đến các thế hệ hiện tại
- tái cấu trúc cây tiến hóa bằng việc sử dụng các phương pháp thích hợp để so sánh các đặc tính này
- Nhóm các phương pháp khỏang cách - Distance methods: những phương pháp này sẽ biến ma trận đặc tính thành ma trận khỏang cách với ý nghĩa khỏang cách chính là khỏang cách tiến hóa giữa các cặp đối tượng đang được so sánh. Khi đó cây tiến hóa sẽ được suy luận từ ma trận khỏang cách này bằng cách sử dụng các thuật tóan tương ứng như liên kế hàng xóm cận kề - neighbour joining NJ - hoặc tiến hóa tối thiểu - minimum evolution ME.
- Nhóm phương pháp hà tiện đến mức tối đa -Maximum parsimony MP: phương pháp này sẽ chọn lựa cây tiến hóa thỏa điều kiện là số lượng đặc tính bị biến đổi phải thấp nhất để giải thích những dữ liệu đã quan sát được.
- Nhóm phương pháp khả năng xác suất - Likelihood methods: nhóm phương pháp này dựa trên một hàm tóan học tính tóan xác suất khả năng một cây tiến hóa được tạo thành từ dữ liệu đã quan sát. Hàm này cho phép việc tích hợp các quá trình tiến hóa của đặc tính thành mô hình xác suất. Phương pháp xác xuất tối đa - Maximum likelihood ML- chọn lựa cây tiến hóa tối đa mà khi quan sát các dữ liệu dưới một mô hình nào đó nó có xác xuất tối đa. Trong nhóm này còn có phương pháp Baye. Phương pháp Bayes khác phương pháp ML ở chỗ thay vì tìm kiếm đỉnh cao nhất (xác suất tối đa) từ không gian các thông số đã cho như phương pháp ML, phương pháp Bayes lại tích hợp các thông số lại với nhau.
Trong nghiên cứu phát sinh genome thì hai bước này giữ nguyên như một nguyên lý tổng quát.
Như vậy cũng giống như nghiên cứu phát sinh chủng lòai vốn dựa trên dữ liệu hình thái và những gene đơn lẻ thì độ tin cậy của cây phát sinh genome cũng phụ thuộc vào chất lượng của đặc tính được chọn và độ chính xác của phương pháp dùng để phân tích, tái lập cây tiến hóa. Về mặt lý thuyết, những đặc tính đáng tin cậy có thể xem là những đặc tính có ít sự thay đổi nhất xuyên suốt thời gian (lý tưởng nhất là chỉ có một thay đổi). Nếu những đặc tính mang quá nhiều sự biến đổi, nó có thể tạo nên cái gọi là sự tương đồng HOMOPLASY thông qua hình thức hội tụ CONVERGENCE hay nghịch đảo REVERSAL khiến cho dấu hiệu phát sinh chủng lọai không được rõ nét. Sự tương đồng là thuật ngữ dùng để chỉ hai hay nhiều trình tự đặc tính (ví dụ trình tự DNA) không xuất phát từ cùng một tổ tiên chung (tức là không đồng dạng HOMOLOGOUS) nhưng chúng lại giống nhau do quá trình tiến hóa hội tụ mang lại – ví dụ như cánh dơi và cánh chim là một dạng homoplasy, thuật ngữ HOMOPLASY cũng gần nghĩa với SIMILARITY – sự tương tự.
Ba nhóm phương pháp dùng để tái lập cây tiến hóa trong nghiên cứu phát sinh chủng lòai cũng được biến đổi để áp dụng trong nghiên cứu phát sinh genome. Phương pháp tái lập cây phát sinh genome có thể phân chia thành phương pháp dựa trên trình tự và phương pháp dựs trên thuộc tính tòan bộ genome (sequence-based methods and methods based on whole-genome features). Lúc đầu phương pháp dựa trên tòan bộ thuộc tính genome được ưu ái sử dụng khá rộng rãi, tuy nhiên nhiều nghiên cứu gần đây đã đánh giá lại phương pháp này. Kết quả là phương pháp dựa trên sự sắp xếp nhiều gene ại trở thành phương pháp được lựa chọn ưu tiên. Ngòai ta còn một phương pháp nữa đó là phương pháp đánh giá sự hiếm thay đổi trong genome (rare genomic changes).
PHƯƠNG PHÁP DỰA TRÊN TRÌNH TỰ - SEQUENCE-BASED METHODS
Số lượng đặc tính đối nghịch với số lượng lòai
Phương pháp nghiên cứu phát sinh genome dựa trên trình tự là phương pháp dựa trên quá trình so sánh trình tự sơ cấp từ đó cây phát sinh chủng lòai được suy luận từ quá trình so sánh thẳng hàng đa trình tự. Phương pháp này ra đời khỏang năm 2000 khi những nghiên cứu đầu tiên bắt đầu dùng một chuỗi dưới 20 gene để tiến hành phân tích. Sau đó một vài nghiên cứu sử dụng chuỗi dữ liệu với hơn 100 gene cũng được tiến hành. Nhưng nếu trong các việc thực nghiệm sử dụng một gene đơn lẻ nhà nghiên cứu sẽ có số lòai đại diện đủ để tiến hành thì trong nghiên cứu dùng chuỗi dữ liệu nhiều gene họ lại gặp hạn chế đó thì số lòai có nhiều gene được giải trình lại không nhiều. Hơn nữa lúc này công cụ máy tính chưa đủ mạnh để tiến hành các phân tích phức tạp này.
Một trong những vấn đề gây tranh cãi mạnh mẽ nhất trong lĩnh vực nghiên cứu phát sinh chủng lòai đó là để tăng độ chính xác lên mức cao nhất người ta phải tăng số lượng đặc tính (trong trường hợp này là gene) hay tăng số lượng lòai được lấy mẫu. Các dữ liệu thu được lại lập lờ nước đôi. Với các nhà nghiên cứu theo trường phái chủ nghĩa kinh nghiệm thì việc gia tăng số lòai đại diện có ý nghĩa quyết định. Một nhóm các nhà nghiên cứu khác lại có khuynh hướng sử dụng biện pháp an tòan đó là với các lòai đã có bộ gene được giải trình tự tòan bộ họ sẽ tăng số gene trong chuỗi dữ liệu của họ. Tuy nhiên một thực tế cho thấy nếu kết hợp dữ liệu gene với số lòai có gene được giải trình tự thì ta sẽ có một khối dữ liệu lớn nhất nhưng lại mang tính bất đối xứng. Nghĩa là khá nhiều lòai chỉ có vài gene được giải trình và ngược lại có vài lòai lại có nhiều hay tòan bộ genome được giải trình. Vì vậy một điều kiện lý tưởng là nhiều lòai có nhiều gene được giải trình tự.
Siêu ma trận và siêu cây
Khi việc so sánh sắp xếp thẳng hàng nhiều gene đã được thiết lập cho một chuỗi dữ liệu chọn trước, thì sau đó có 2 khuynh hướng đồng thời có thể được sử dụng để tái lập cây phát sinh genome.
Một trong những nguyên tắc cơ bản của việc sử dụng chuỗi dữ liệu có liên quá đó là các dữ liệu này tạo nên một dạng bằng chứng tuyệt đối, do vậy chiến thuật phổ biến nhất đó là phân tích siêu ma trận được tạo thành từ sự liên kết các gene đơn lẻ. Việc tính tóan siêu ma trận này dựa trên phương pháp dựa trên trình tự tiêu chuẩn.
Tuy nhiên thực tế cho thấy không phải các lòai đại diện cũng có tất cả gene nghiên cứu phải được giải trình tự đầy đủ. Do vậy những trình tự bị thiếu ở một lòai nào đó có thể thay thế bằng một dấu hỏi. Câu hỏi đặt ra là liệu những dữ liệu bị thiếu này có ảnh hưởng đến kết quả tái lập cây tiến hóa hay không? Nhiều nghiên cứu thực nghiệm lọai bỏ từ 12,5 % đến 25% dữ liệu cho thấy rằng chúng không làm giảm độ chính xác của cây tiến hóa. Các tác giả cho rằng các dữ liệu bị thiếu có thể được thay thế bù trù từ những thông tín khác. Thực tế lại cho thấy nếu một lòai chỉ có 10 gene đại diện trong chuỗi dữ liệu 100 gene thì vấn đề lại không nghiêm trọng bằng việc không đưa lòai này vào danh sách lấy mẫu. Theo các nhà nghiên cứu, khuynh hướng siêu ma trận tỏ ra ưu việc trong việc tái lập cây tiến hóa bất chấp thông tin trình tự không đầy đủ. Có được điều này là do chuỗi dữ liệu phân tích có thể được thiết kế bằng cách kết hợp khai thác dữ liệu hiện có hoặc sử dụng các thông tin trình tự dưới dạng cDNA và EST. Do vậy khuynh hướng này cho phép tăng số lượng lòai lấy mẫu thay vì giới hạn một số lòai có bộ gene được giải đầy đủ.
Một khuynh hướng nghiên cứu phát sinh genome dựa trên trình tự khác đó là phân tích từng khối dữ liệu riêng rẽ (ví dụ như gene) sau đó kết hợp các cây kết quả riêng rẽ này thành một „siêu cây“. Điều đòi hỏi tiên quyết cho khuynh hướng này là các cây kết quả riêng lẻ phải có phần giao nhau để đảm bảo độ tin cây lắp ghép các cây thành phần thành siêu cây.
Các phương pháp khác nhau dùng cho việc thiết lập siêu cây đã được đưa ra khá nhiều, do bản chất của phương pháp này khá đơn giản và vì vậy có thể sử dụng phương pháp MP để thiết lập ma trận.
Khuynh hướng siêu cây cho thấy nó có ý nghĩa rất lớn khi nguồn dữ liệu phân tích vốn rời rạc không liên tục ví dụ trên cùng một nhóm đối tượng người ta vừa có dữ liệu hình thái vừa có dữ liệu phân tử. Khuynh hướng tạo siêu cây cho kết quả rất tốt khi nghiên cứu sự phát sinh chủng lòai của lòai thú có nhau thai. Tuy nhiên điều lạ lùng là khuynh hướng này lại không mấy thành công khi nghiên cứu sự phát sinh chủng lòai của vi khuẩn và một số lòai Eukaryote hiện đại mà những lòai này có bộ gene được giải hòan chỉnh. Mặc dù vậy, việc tái lập siêu cây tiến hóa có vẻ là một lựa chọn thú vị không chỉ cho các nghiên cứu hiện tại mà còn hứa hẹn cả tương lai do nó cho phép kết hợp các dạng dữ liệu khác nhau đã có trong quá khứ, hiện tại và sẽ thu được trong tương lai.
Nhiều nghiên cứu so sánh giữa hai khuynh hướng này cho thấy kết quả có những điểm đáng lưu ý. Ví dụ khi nghiên cứu sự phát sinh chủng lòai nhóm cá sâu thù khuynh hướng dựa trên siêu ma trận cho kết quả tốt hơn khuynh hướng siêu cây. Nhưng nghiên cứu tiến hóa của các lòai cỏ thì hai khuynh hướng lại cho kết quả như nhau. Tuy nhiên việc so sánh 2 khuynh hướng này không phải dễ do mỗi khuynh hướng khác nhau lại dùng một dạng dữ liệu khác nhau. Đó là điều mà các nhà nghiên cứu nhận thấy khi nghiên cứu sự phát sinh chủng lòai ở vi khuẩn, hai khuynh hướng lại cho những kết quả tương tự mặc dù hai khuynh hướng lại dựa trên chuỗi dữ liệu khác nhau.
Last edited by a moderator: