dontcry:
Loạt bài về Phylogenomics, Phylogeny của anh lonxon hiện có các link sau:
1. Bài này
2. Giới thiệu về phylogenomics
Tôi ghi lại các link này để mọi người biết chỗ thảo luận cho đúng.
---------------------------------------------
Bài này tóm lược những bước cơ bản của một đề tài phylogeny, hy vọng các bạn sau khi đọc xong sẽ có cái nhìn sơ lược về phylogenetic papers
Giới thiệu về Phylogeny, các bước cơ bản tiến hành phân tích.
1. Khái niệm về Phylogeny
Phylogeny xuất phát từ sự kết hợp hai từ gốc Hy Lạp: Phylo nghĩa là stem tức trực hệ (tuyến tính của một dòng họ) và genesis tức là nguồn gốc – tạm dịch phylogeny là sự phát sinh chủng lòai. Tính từ của nó là phylogenetic
Trong ngành molecular phylogeny, người ta nghiên cứu mối quan hệ giữa các lòai sinh vật thông qua các bằng chứng phân tử, cụ thể là trình tự DNA và protein. Như vậy sự khác biệt giữa các trình tự (DNA) chỉ định sự phân kỳ di truyền như là kết quả của tiến hóa phân tử theo tiến trình thời gian.
Các phương pháp dùng để nghiên cứu phát sinh chủng lòai chủ yếu dựa trên một sự giả định về các tiến trình tiến hóa ở mức phân tử thông qua việc quan sát phân tích trình tự DNA hoặc protein. Bằng cách sử dụng cộng cụ máy tính, các chuỗi dữ liệu sẽ được mô phỏng tiến trình tiến hóa và phân tích tiến trình phát sinh chủng lòai. Giả sử là chúng ta có một „cây tiến hóa đúng“, chúng ta có thể dùng nó để để kiểm tra lại độ chính xác, tính nhất quán khả năng tin cậy của những mô hình tiến hóa. Tuy nhiên khi sử dụng các dữ liệu sinh học, cái gọi là cây tiến hóa có thể không bao giờ có, hoặc ít ra cũng có thể nói là KHÔNG BIẾT. Do vậy người ta chấp nhận một cây tiến hóa được dựng nên mà người ta tin là nó GIỐNG NHẤT với cây tiến hóa đúng.
Các trình tự cơ bản để cho một nghiên cứu phát sinh chủng lòai phân tử
Tùy thuộc nhiều vấn đề mà các bước của một nghiên cứu phát sinh chủng lòai phân tử có thể thiết lập khác nhau, nhưng cơ bản nó gồm các bước sau:
1. Xác định mục tiêu, lấy mẫu sinh vật và họ gene
2. Chọn marker phân tử, tức gene hay protein cần đọc trình tự
3. Đọc trình tự, hiệu chỉnh trình tự
4. Sắp xếp thẳng hàng các trình tự
5. Chọn mô hình tiến hóa
6. Phân tích sự phát sinh chủng loài
7. Đọc cây tiến hóa
8. Kiểm tra cây tiến hóa
9. Chấp nhận kết quả hoặc quay lại bước 2
2.1 Chọn lựa dữ liệu và lấy mẫu đại diện
Nếu việc mục đích việc phân tích phát sinh chủng lòai chỉ nhằm nghiên cứu trên một họ gene, ví dụ họ glycerin aldehyd dehydrogenase thì việc chọn lựa dữ liệu quá dễ dàng.
Tuy nhiên khi quan tâm đến sự phát sinh chủng lòai của một nhóm sinh vật thì việc chọn dữ liệu có thể mở rộng hơn, chẳng hạn kết hợp nhiều gene hoặc nhiều vùng DNA khác nhau. Với những lòai sinh vật mà người ta cho là nó có quan hệ gần thì người ta có thể chọn những gene hay vùng DNA có độ linh động cao (như intron hay ITS), nhưng với nhóm sinh vật có quan hệ xa thì người ta lại chọn gene hay vùng DNA có độ bảo tồn cao (ví dụ ribosomal LSU rDNA, gene mã hóa protein). Nếu việc chọn gene hay vùng DNA có độ bảo tồn quá hay độ biến thiên cao quá sẽ có thể ảnh hưởng đến kết quả cuối cùng, vì vậy khuynh hướng hiện nay cũng là khuynh hướng tốt nhất là người ta kết hợp cả hai hướng này cho cùng một nghiên cứu.
Trong việc chọn mẫu sinh vật đại diện, người ta có khuynh hướng chọn những lòai đại diện sao cho nó thể hiện tính da dạng sinh học tốt nhất có thể. Thông thường để thỏa mãn đòi hỏi này người ta thường chọn 2 lòai đại diện cho một nhóm hình thái đã biết trước khá rõ, trong trường hợp lòai hình thái rời rạc hoặc khái niệm lòai vẫn còn là nghi vấn thì thì có thể chọn đại diện sao cho nó kết hợp mọi đặc tính hình thái đang khảo sát.
Với trường hợp phân tích một họ gene thì 2 điều kiện bắt buộc phải thỏa mãn là:
1- sinh vật chọn lấy mẫu phải đảm bảo tính đa dạng sinh học
2- gene trực giao và gene đẳng giao (orthologous và paralogous) trong cùng một sinh vật lấy mẫu phải được đọc trình tự đầy đủ
Số lượng taxon cũng ảnh hưởng rất lớn đến kết quả phân tích. Nếu lấy được nhiều lòai đại diện thì khả năng lỗi hệ thống và một số vấn đề phát sinh khác có thể giảm xuống. Với những lòai mà người ta nghi ngờ nó có thể gây ra hiện tượng „nhiễu“ kết quả thì khi đó người ta buộc phải thêm vào một hoặc nhiều lòai mà nó gần hoặc cùng taxa với lòai nghi ngờ này. Điều này đặc biệt có ý nghĩa quyết định khi kết quả phân tích sơ bộ cho thấy tốc độ tiến hóa của những taxa khác nhau có những sai khác quá lớn. Nói cách khác việc cho thêm các taxa có quan hệ gần với taxa nghi ngờ gây nhiễu sẽ giúp kiểm chứng lại kết quả sơ bộ này.
Để xác định hướng tiến hóa, việc thêm nhóm đối chứng (outgroup) có ý nghĩa quan trọng đáng kể. Thông thường để tăng độ chính xác của cây tiến hóa, nhóm outgroup được chọn thường là nhóm có quan hệ gần nhất với nhóm đang được phân tích. Song song đó, người ta còn phải tiến hành phân tích mà không có nhóm ngọai nhưng thay vào đó cây tiến hóa phải là cây không có gốc (unrooted tree). Điều này sẽ giúp gia tăng mức ủng hộ với các nhánh trung gian.
2.2 Đọc trình tự gene, hiệu chỉnh trình tự
Do các phân tích phát sinh chủng lòai dựa trên những sự khác biệt khi quan sát các trình tự được so sánh thẳng hàng. Do đó lỗi trình tự sẽ có thể đưa đến một cây tiến hóa kô thật chính xác. Đặc biệt với trường hợo vùng DNA có độ bảo tồn cao và nhà phân tích chọn mô hình tiến hóa phức tạp thì lỗi trình tự sẽ cho ra kết quả có độ sai khác rất lớn.
Để tránh trường hợp lỗi trình tự do chủ quan, người ta buộc phải đọc trình tự cả hai sợi để việc hiệu chỉnh sau đó được đảm bảo tính khách quan hơn.
2.3 Sắp xếp thẳng hàng
Tiến trình này có thể thực hiện bằng máy tính một cách tự động hay thủ công. Thông thường thì có thể dùng Clustal X/W để thực hiện công việc này. Nhưng với những gene hay vùng DNA kém bảo tồn, và/hoặc chứa indel thì quá trình sắp xếp thẳng hàng tự động rất dễ gây ra lỗi. Do đó với gene hay vùng DNA có độ biến thiên cao người ta phải trực tiếp thực hiện quá trình sắp xếp thẳng hàng bằng mắt.
Việc thực hiện quá trình sắp xếp thẳng hàng còn là cơ hội để nhà nghiên cứu kiểm tra lại lần cuối độ chính xác của trình tự vừa mới giải trình.
Với những vùng không có khả năng sắp xếp thẳng hàng thì người ta sẽ dứt khóat lọai bỏ trước khi đưa vào phân tích.
2.4 Chọn lựa mô hình tiến hóa
Mô hình tiến hóa dành cho trình tự DNA ngày càng trở nên phức tạp. Các thông số cơ bản thường có trong mô hình tiến hóa là tần xuất base, ma trận tốc độ biến đổi, phân bố gamma, tỷ lệ vị trí hằng định (không biến thiên) và sự đồng tiến hóa.
Trong mô hình tiến hóa đơn giản nhất, người ta giả định là tần xuất xuất hiện các base là như nhau, nghĩa là tại một vị trí cho trước có 25% cho một trong 4 base ATGC xuất hiện. Tuy nhiên thông thường, tần xuất base thường được ước tính trước đó từ chuỗi dữ liệu đưa vào phân tích do đó mà tần xuất thực sự của mỗi base ứng với những chuỗi dữ liệu khác nhau sẽ khác nhau.
Cũng trong mô hình tiến hóa đơn giản nhất, tốc độ biến đổi cũng được giả định là bằng nhau cho mỗi dạng đột biến điểm. Khi đó số lượng các dạng biến đổi trong mô hình tiến hóa này được thiết lập là 1.
Trong mô hình tiến hóa có 2 dạng biến đổi, thông thường là đồng hóa và dị hóan, người ta sẽ gán cho hai dạng biến đổi này hai giá trị khác nhau.
Mô hình tiến hóa phức tạp nhất hiện nay là mô hình có khả năng hồi biến tổng quát theo thời gian (General time reverible model). Mô hình này cho rằng có 6 kiển biến đổi và mỗi kiểu biến đổi có một tốc độ khác nhau. Ngòai ra còn có một mô hình khác gọi là maô hình không hồi biến gồm 12 tốc độ tiến hóa khác nhau, nhưng mô hình này khônh được sử dụng trong các chương trình phân tích phát sinh chủng lòai chuẩn.
Tốc độ biến thiên theo phân bố gamma và tỷ lệ các vị trí không biến thiên cho phép đánh giá một vùng DNA có độ bảo tồn cao hay thấp. Ví dụ trong ribosomal DNA cho thấy „vùng loop“ có độ biến thiên khá cao trong khi „vùng helical“ lại có mức bảo tồn khá lớn. Ở những vùng mã hóa protein, vị trí base thứ 3 trong mã condon (vị trí wobble) lại khá biến thiên so với vị trí thứ nhất và thứ 2.
Việc tính tóan tỷ lệ vị trí không biến thiên cho phép giải thích có bao nhiêu vị trí không tiến hóa, trong khi đó tính tóan phân bố gamma lại cho biết tỷ lệ các vị trí tiến hóa nhanh hay chậm.
Sự đồng tiến hóa cho phép đánh giá một trình tự liệu có thể tiến hóa nhanh hơn các trình tự khác hay không. Tuy nhiên thông số này ít khi thấy hiện diện trong các chương trình phân tích phát sinh chủng lòai.
Bằng cách kết hợp tần xuất base, ma trận tốc độ biến đổi, tỷ lệ vị trí hằng định, tốc độ biến thiên theo phân bố gamma, chương trình phân tích phát sinh chủng lòai mang tên PAUP cho phép thiết lập đến 56 mô hình tiến hóa.
Trước khi chuỗi dữ liệu thực sự được tính tóan và phân tích, chúng phải trãi qua quá trình kiểm tra dò tìm mô hình tiến hóa thích hợp. Với các mô hình tiến hóa lồng ghép (nested) thì có thể dùng phép kiểm tra tỷ lệ khả năng theo cấp bậc, còn với các mô hình tiến hóa không lồng ghép thì có thể dùng chuẩn thông tin Akaike. Chương trình Modeltest cho pháp thực hiện bước kiểm tra này.
2.5 Phân tích phát sinh chủng lòai và dò tìm cây tiến hóa tối thích
Vài phương pháp nhằm suy luận cây phát sinh chủng lòai đã được biết khá rõ hiện nay đều là những phương pháp kết hợp thuật tóan dò tìm cây tối thích và một nhóm tiêu chuẩn tối ưu chọn trước. Tiến trình thực hiện của nó là dò tìm những cây tiến hóa tối thích, sau đó những cây tiến hóa này được đánh giá dưới những tiêu chuẩn tối ưu chọn trước để cho ra một cây tiến hóa tốt nhất.
Về mặt lý thuyết, việc dò tìm được xem là tối ưu là phải dò tìm cho bằng hết, không bỏ sót. Như vậy nghĩa là tất cả các cây tiến hóa phải được đánh giá dưới những tiêu chuẩn tối ưu chọn trước. Trong thực nghiệm, điều này chỉ có thể thực hiện nếu chỉ có vài taxa được phân tích. Ví dụ với 30 taxa, có thể cho ra đến 1.4068 x 109, nếu cho tất cả cây này trãi qua quá trình đánh giá thì sẽ tiêu tốn rất nhiều thời gian và đòi hỏi máy tính phải có cấu trúc từ mạnh đến cực mạnh. Do đó việc dò tìm bằng hết các cây tiến hết là điều không tưởng.
Do đó trong thực nghiệm người ta chọn hai phương pháp dò tìm cây tiến hóa đó là phương pháp branch-and-bound và phương pháp heuristics.
Trong phương pháp branch-and bound, một cây được coi là tốt nhất sẽ được lựa chọn, sau đó cây này được đánh giá cho điểm theo các tiêu chuẩn đã chọn trước. Cây này sẽ được giữ trong bộ nhớ và điểm của cây này được xem là „điểm chuẩn“. Điểm các cây khác được so sánh, nếu dưới điểm chuẩn sẽ bị bỏ quá, nếu cao hơn điểm chuẩn thì sẽ trở thành cây tốt nhất mới với điểm chuẩn mới. Tiến trình cứ thế tiếp tục cho đến hết. Thuật tóan này cho phép dò tìm cây tiến hóa tốt nhất nhưng lại tiêu tốn nhiều thời gian.
Phương pháp heuristics mặc dù không cho kết quả chính xác cao như phương pháp trên nhưng vẫn thường được dùng.
Ngòai ra còn một phương pháp nữa là phương pháp phân rã hình ngôi sao. Phương pháp này có nguyên lý là đầu tiên một hình cây dạng ngôi sao không hòan chỉnh được tạo thành, kế đến một taxa liên hệ gần nhất được đưa vào sao cho nó phải tìm được vị trí tốt nhất. Tiến trình thực hiện nhiều lần cho đến khi cây tiến hóa hình thành.
2.6 Phân tích phát sinh chủng lòai - Tiêu chuẩn tối ưu
Trong phương pháp Maximum parsimony (MP -hà tiện tối đa), một sự giả định cho rằng cây tiến hóa tốt nhất mổ tả tiến trình tiến hóa tốt nhất chính là cây mô tả được các lòai ít thay đổi nhất tức là có ít đột biến nhất, cây vì thế có điểm thấp nhất (hà tiện) theo một tiêu chuẩn định sẵn. Trong phương pháp parsimony dành cho cây không có gốc, tất cả base tại tất cả vị trí được xem là có tốc độ tiến hóa như nhau. Phương pháp dò tìm cây theo thuật tóan heuristics thường áp dụng cho phương pháp parsimony.
Khác với phương pháp Parsimony có mô hình tiến hóa là một hàm ẩn, thì phương pháp khỏang cách – distance method lại có mô hình tiến hóa là một hàm hiện. Trong phương pháp này từng cặp trình tự một sẽ được so sánh thẳng hàng cặp đôi và ứng với từng cặp, khỏang cách di truyền sẽ được tính tóan. Do mô hình tiến hóa là một hàm hiện nên một trong số mô hình tiến hóa có thể được chọn để tính tóan khỏang cách di truyền giữa từng cặp taxa từ đó cho ra một ma trận khỏang cách giữa tất cả các taxa. Và để có được cây tiến hóa, phương pháp phân rã hình ngôi sao thường được sử dụng ví dụ phương pháp neighbor-joining. Do phương pháp neighbor-joining mà một trong những phương pháp nhanh nhất để dò tìm cây tiến hóa nên nó thường được sử dụng để phân tích khối dữ liệu lớn với nhiều taxa.
Phương pháp Maximum Likelihood - khả năng tối đa là phương pháp tiêu tốn nhiều thời gian nhất nhưng lại cho kết quả đáng tin cậy nhất. Mô hình tiến hóa dùng trong phương pháp này cũng là một hàm hiện. Ứng với mỗi mô hình tiến hóa được chọn, phương pháp này sẽ tính tóan khả năng xác suất (dưới dạng – ln L) mà một cây tiến hóa có thể có từ chuỗi trình tự phân tích. Cây tiến hóa có xác suất cao nhất là cây cuối cùng được chọn.
Ngòai 3 phương pháp kể trên còn có phương pháp Bayes.
2.8 Phân tích giá trị bootstrap
Phân tích bootstrap được thực hiện nhằm kiểm tra tính chính xác và độ tin cậy cho từng nhánh trong cây tiến hóa. Đầu tiên, các vị trí từ chuỗi trình tự đã sắp xếpthẳng hàng sẽ được đảo chỗ cho nhau một cách ngẫu nhiên để tạo ra nhiều mẫu phụ (gọi là sự lặp lại bootstrap). Như vậy các mẫu phụ có kích thước giống như mẫu gốc nhưng vị trí thành phần không giống nhau. Sau đó các mẫu phụ sẽ được trãi qua quá trình phân tích tương tự như mẫu gốc đã trãi qua. Kết quả từ những mẫu phụ sẽ được dùng để tính tóan giá trị support (ủng hộ) cho một nhánh đơn lẻ nào đó. Do giá trị support được biểu diễn bằng tỷ lệ % nên ít nhất phải có 100 lần lặp lại, tức 100 lần tạo mẫu phụ. Thông thường thì người ta làm với 1000 lần lặp lại. Nếu một nhóm taxa (clade) cho giá trị support từ 95% trở lên thì nhành của nhóm này được cho là được ủng hộ mạnh mẽ.
2.9 Sử dụng cây được định nghĩa theo người sử dụng
Ngay sau khi có kết quả cây tiến hóa, nhà nghiên cứu có thể so sánh kết quả với cây tiến hóa mà nhà nghiên cứu đã định nghĩa sẵn từ trước. Sự sai khác giữa hai cây tiến hóa này có thể giúp nhà nghiên cứu đi đến quyết định chấp nhận kết quả hay quay lại hiệu chỉnh.
2.10 Xuất bản cây tiến hóa
Sau khi có cây tiến hóa, nhà nghiên cứu có thể đưa cây tiến hóa vào những chương trình xử lý hình ảnh đồ hòa thông thường để hiệu chỉnh hay làm nổi bật nhóm lòai cần chú ý trước khi công bố.
Loạt bài về Phylogenomics, Phylogeny của anh lonxon hiện có các link sau:
1. Bài này
2. Giới thiệu về phylogenomics
Tôi ghi lại các link này để mọi người biết chỗ thảo luận cho đúng.
---------------------------------------------
Bài này tóm lược những bước cơ bản của một đề tài phylogeny, hy vọng các bạn sau khi đọc xong sẽ có cái nhìn sơ lược về phylogenetic papers
Giới thiệu về Phylogeny, các bước cơ bản tiến hành phân tích.
1. Khái niệm về Phylogeny
Phylogeny xuất phát từ sự kết hợp hai từ gốc Hy Lạp: Phylo nghĩa là stem tức trực hệ (tuyến tính của một dòng họ) và genesis tức là nguồn gốc – tạm dịch phylogeny là sự phát sinh chủng lòai. Tính từ của nó là phylogenetic
Trong ngành molecular phylogeny, người ta nghiên cứu mối quan hệ giữa các lòai sinh vật thông qua các bằng chứng phân tử, cụ thể là trình tự DNA và protein. Như vậy sự khác biệt giữa các trình tự (DNA) chỉ định sự phân kỳ di truyền như là kết quả của tiến hóa phân tử theo tiến trình thời gian.
Các phương pháp dùng để nghiên cứu phát sinh chủng lòai chủ yếu dựa trên một sự giả định về các tiến trình tiến hóa ở mức phân tử thông qua việc quan sát phân tích trình tự DNA hoặc protein. Bằng cách sử dụng cộng cụ máy tính, các chuỗi dữ liệu sẽ được mô phỏng tiến trình tiến hóa và phân tích tiến trình phát sinh chủng lòai. Giả sử là chúng ta có một „cây tiến hóa đúng“, chúng ta có thể dùng nó để để kiểm tra lại độ chính xác, tính nhất quán khả năng tin cậy của những mô hình tiến hóa. Tuy nhiên khi sử dụng các dữ liệu sinh học, cái gọi là cây tiến hóa có thể không bao giờ có, hoặc ít ra cũng có thể nói là KHÔNG BIẾT. Do vậy người ta chấp nhận một cây tiến hóa được dựng nên mà người ta tin là nó GIỐNG NHẤT với cây tiến hóa đúng.
Các trình tự cơ bản để cho một nghiên cứu phát sinh chủng lòai phân tử
Tùy thuộc nhiều vấn đề mà các bước của một nghiên cứu phát sinh chủng lòai phân tử có thể thiết lập khác nhau, nhưng cơ bản nó gồm các bước sau:
1. Xác định mục tiêu, lấy mẫu sinh vật và họ gene
2. Chọn marker phân tử, tức gene hay protein cần đọc trình tự
3. Đọc trình tự, hiệu chỉnh trình tự
4. Sắp xếp thẳng hàng các trình tự
5. Chọn mô hình tiến hóa
6. Phân tích sự phát sinh chủng loài
7. Đọc cây tiến hóa
8. Kiểm tra cây tiến hóa
9. Chấp nhận kết quả hoặc quay lại bước 2
2.1 Chọn lựa dữ liệu và lấy mẫu đại diện
Nếu việc mục đích việc phân tích phát sinh chủng lòai chỉ nhằm nghiên cứu trên một họ gene, ví dụ họ glycerin aldehyd dehydrogenase thì việc chọn lựa dữ liệu quá dễ dàng.
Tuy nhiên khi quan tâm đến sự phát sinh chủng lòai của một nhóm sinh vật thì việc chọn dữ liệu có thể mở rộng hơn, chẳng hạn kết hợp nhiều gene hoặc nhiều vùng DNA khác nhau. Với những lòai sinh vật mà người ta cho là nó có quan hệ gần thì người ta có thể chọn những gene hay vùng DNA có độ linh động cao (như intron hay ITS), nhưng với nhóm sinh vật có quan hệ xa thì người ta lại chọn gene hay vùng DNA có độ bảo tồn cao (ví dụ ribosomal LSU rDNA, gene mã hóa protein). Nếu việc chọn gene hay vùng DNA có độ bảo tồn quá hay độ biến thiên cao quá sẽ có thể ảnh hưởng đến kết quả cuối cùng, vì vậy khuynh hướng hiện nay cũng là khuynh hướng tốt nhất là người ta kết hợp cả hai hướng này cho cùng một nghiên cứu.
Trong việc chọn mẫu sinh vật đại diện, người ta có khuynh hướng chọn những lòai đại diện sao cho nó thể hiện tính da dạng sinh học tốt nhất có thể. Thông thường để thỏa mãn đòi hỏi này người ta thường chọn 2 lòai đại diện cho một nhóm hình thái đã biết trước khá rõ, trong trường hợp lòai hình thái rời rạc hoặc khái niệm lòai vẫn còn là nghi vấn thì thì có thể chọn đại diện sao cho nó kết hợp mọi đặc tính hình thái đang khảo sát.
Với trường hợp phân tích một họ gene thì 2 điều kiện bắt buộc phải thỏa mãn là:
1- sinh vật chọn lấy mẫu phải đảm bảo tính đa dạng sinh học
2- gene trực giao và gene đẳng giao (orthologous và paralogous) trong cùng một sinh vật lấy mẫu phải được đọc trình tự đầy đủ
Số lượng taxon cũng ảnh hưởng rất lớn đến kết quả phân tích. Nếu lấy được nhiều lòai đại diện thì khả năng lỗi hệ thống và một số vấn đề phát sinh khác có thể giảm xuống. Với những lòai mà người ta nghi ngờ nó có thể gây ra hiện tượng „nhiễu“ kết quả thì khi đó người ta buộc phải thêm vào một hoặc nhiều lòai mà nó gần hoặc cùng taxa với lòai nghi ngờ này. Điều này đặc biệt có ý nghĩa quyết định khi kết quả phân tích sơ bộ cho thấy tốc độ tiến hóa của những taxa khác nhau có những sai khác quá lớn. Nói cách khác việc cho thêm các taxa có quan hệ gần với taxa nghi ngờ gây nhiễu sẽ giúp kiểm chứng lại kết quả sơ bộ này.
Để xác định hướng tiến hóa, việc thêm nhóm đối chứng (outgroup) có ý nghĩa quan trọng đáng kể. Thông thường để tăng độ chính xác của cây tiến hóa, nhóm outgroup được chọn thường là nhóm có quan hệ gần nhất với nhóm đang được phân tích. Song song đó, người ta còn phải tiến hành phân tích mà không có nhóm ngọai nhưng thay vào đó cây tiến hóa phải là cây không có gốc (unrooted tree). Điều này sẽ giúp gia tăng mức ủng hộ với các nhánh trung gian.
2.2 Đọc trình tự gene, hiệu chỉnh trình tự
Do các phân tích phát sinh chủng lòai dựa trên những sự khác biệt khi quan sát các trình tự được so sánh thẳng hàng. Do đó lỗi trình tự sẽ có thể đưa đến một cây tiến hóa kô thật chính xác. Đặc biệt với trường hợo vùng DNA có độ bảo tồn cao và nhà phân tích chọn mô hình tiến hóa phức tạp thì lỗi trình tự sẽ cho ra kết quả có độ sai khác rất lớn.
Để tránh trường hợp lỗi trình tự do chủ quan, người ta buộc phải đọc trình tự cả hai sợi để việc hiệu chỉnh sau đó được đảm bảo tính khách quan hơn.
2.3 Sắp xếp thẳng hàng
Tiến trình này có thể thực hiện bằng máy tính một cách tự động hay thủ công. Thông thường thì có thể dùng Clustal X/W để thực hiện công việc này. Nhưng với những gene hay vùng DNA kém bảo tồn, và/hoặc chứa indel thì quá trình sắp xếp thẳng hàng tự động rất dễ gây ra lỗi. Do đó với gene hay vùng DNA có độ biến thiên cao người ta phải trực tiếp thực hiện quá trình sắp xếp thẳng hàng bằng mắt.
Việc thực hiện quá trình sắp xếp thẳng hàng còn là cơ hội để nhà nghiên cứu kiểm tra lại lần cuối độ chính xác của trình tự vừa mới giải trình.
Với những vùng không có khả năng sắp xếp thẳng hàng thì người ta sẽ dứt khóat lọai bỏ trước khi đưa vào phân tích.
2.4 Chọn lựa mô hình tiến hóa
Mô hình tiến hóa dành cho trình tự DNA ngày càng trở nên phức tạp. Các thông số cơ bản thường có trong mô hình tiến hóa là tần xuất base, ma trận tốc độ biến đổi, phân bố gamma, tỷ lệ vị trí hằng định (không biến thiên) và sự đồng tiến hóa.
Trong mô hình tiến hóa đơn giản nhất, người ta giả định là tần xuất xuất hiện các base là như nhau, nghĩa là tại một vị trí cho trước có 25% cho một trong 4 base ATGC xuất hiện. Tuy nhiên thông thường, tần xuất base thường được ước tính trước đó từ chuỗi dữ liệu đưa vào phân tích do đó mà tần xuất thực sự của mỗi base ứng với những chuỗi dữ liệu khác nhau sẽ khác nhau.
Cũng trong mô hình tiến hóa đơn giản nhất, tốc độ biến đổi cũng được giả định là bằng nhau cho mỗi dạng đột biến điểm. Khi đó số lượng các dạng biến đổi trong mô hình tiến hóa này được thiết lập là 1.
Trong mô hình tiến hóa có 2 dạng biến đổi, thông thường là đồng hóa và dị hóan, người ta sẽ gán cho hai dạng biến đổi này hai giá trị khác nhau.
Mô hình tiến hóa phức tạp nhất hiện nay là mô hình có khả năng hồi biến tổng quát theo thời gian (General time reverible model). Mô hình này cho rằng có 6 kiển biến đổi và mỗi kiểu biến đổi có một tốc độ khác nhau. Ngòai ra còn có một mô hình khác gọi là maô hình không hồi biến gồm 12 tốc độ tiến hóa khác nhau, nhưng mô hình này khônh được sử dụng trong các chương trình phân tích phát sinh chủng lòai chuẩn.
Tốc độ biến thiên theo phân bố gamma và tỷ lệ các vị trí không biến thiên cho phép đánh giá một vùng DNA có độ bảo tồn cao hay thấp. Ví dụ trong ribosomal DNA cho thấy „vùng loop“ có độ biến thiên khá cao trong khi „vùng helical“ lại có mức bảo tồn khá lớn. Ở những vùng mã hóa protein, vị trí base thứ 3 trong mã condon (vị trí wobble) lại khá biến thiên so với vị trí thứ nhất và thứ 2.
Việc tính tóan tỷ lệ vị trí không biến thiên cho phép giải thích có bao nhiêu vị trí không tiến hóa, trong khi đó tính tóan phân bố gamma lại cho biết tỷ lệ các vị trí tiến hóa nhanh hay chậm.
Sự đồng tiến hóa cho phép đánh giá một trình tự liệu có thể tiến hóa nhanh hơn các trình tự khác hay không. Tuy nhiên thông số này ít khi thấy hiện diện trong các chương trình phân tích phát sinh chủng lòai.
Bằng cách kết hợp tần xuất base, ma trận tốc độ biến đổi, tỷ lệ vị trí hằng định, tốc độ biến thiên theo phân bố gamma, chương trình phân tích phát sinh chủng lòai mang tên PAUP cho phép thiết lập đến 56 mô hình tiến hóa.
Trước khi chuỗi dữ liệu thực sự được tính tóan và phân tích, chúng phải trãi qua quá trình kiểm tra dò tìm mô hình tiến hóa thích hợp. Với các mô hình tiến hóa lồng ghép (nested) thì có thể dùng phép kiểm tra tỷ lệ khả năng theo cấp bậc, còn với các mô hình tiến hóa không lồng ghép thì có thể dùng chuẩn thông tin Akaike. Chương trình Modeltest cho pháp thực hiện bước kiểm tra này.
2.5 Phân tích phát sinh chủng lòai và dò tìm cây tiến hóa tối thích
Vài phương pháp nhằm suy luận cây phát sinh chủng lòai đã được biết khá rõ hiện nay đều là những phương pháp kết hợp thuật tóan dò tìm cây tối thích và một nhóm tiêu chuẩn tối ưu chọn trước. Tiến trình thực hiện của nó là dò tìm những cây tiến hóa tối thích, sau đó những cây tiến hóa này được đánh giá dưới những tiêu chuẩn tối ưu chọn trước để cho ra một cây tiến hóa tốt nhất.
Về mặt lý thuyết, việc dò tìm được xem là tối ưu là phải dò tìm cho bằng hết, không bỏ sót. Như vậy nghĩa là tất cả các cây tiến hóa phải được đánh giá dưới những tiêu chuẩn tối ưu chọn trước. Trong thực nghiệm, điều này chỉ có thể thực hiện nếu chỉ có vài taxa được phân tích. Ví dụ với 30 taxa, có thể cho ra đến 1.4068 x 109, nếu cho tất cả cây này trãi qua quá trình đánh giá thì sẽ tiêu tốn rất nhiều thời gian và đòi hỏi máy tính phải có cấu trúc từ mạnh đến cực mạnh. Do đó việc dò tìm bằng hết các cây tiến hết là điều không tưởng.
Do đó trong thực nghiệm người ta chọn hai phương pháp dò tìm cây tiến hóa đó là phương pháp branch-and-bound và phương pháp heuristics.
Trong phương pháp branch-and bound, một cây được coi là tốt nhất sẽ được lựa chọn, sau đó cây này được đánh giá cho điểm theo các tiêu chuẩn đã chọn trước. Cây này sẽ được giữ trong bộ nhớ và điểm của cây này được xem là „điểm chuẩn“. Điểm các cây khác được so sánh, nếu dưới điểm chuẩn sẽ bị bỏ quá, nếu cao hơn điểm chuẩn thì sẽ trở thành cây tốt nhất mới với điểm chuẩn mới. Tiến trình cứ thế tiếp tục cho đến hết. Thuật tóan này cho phép dò tìm cây tiến hóa tốt nhất nhưng lại tiêu tốn nhiều thời gian.
Phương pháp heuristics mặc dù không cho kết quả chính xác cao như phương pháp trên nhưng vẫn thường được dùng.
Ngòai ra còn một phương pháp nữa là phương pháp phân rã hình ngôi sao. Phương pháp này có nguyên lý là đầu tiên một hình cây dạng ngôi sao không hòan chỉnh được tạo thành, kế đến một taxa liên hệ gần nhất được đưa vào sao cho nó phải tìm được vị trí tốt nhất. Tiến trình thực hiện nhiều lần cho đến khi cây tiến hóa hình thành.
2.6 Phân tích phát sinh chủng lòai - Tiêu chuẩn tối ưu
Trong phương pháp Maximum parsimony (MP -hà tiện tối đa), một sự giả định cho rằng cây tiến hóa tốt nhất mổ tả tiến trình tiến hóa tốt nhất chính là cây mô tả được các lòai ít thay đổi nhất tức là có ít đột biến nhất, cây vì thế có điểm thấp nhất (hà tiện) theo một tiêu chuẩn định sẵn. Trong phương pháp parsimony dành cho cây không có gốc, tất cả base tại tất cả vị trí được xem là có tốc độ tiến hóa như nhau. Phương pháp dò tìm cây theo thuật tóan heuristics thường áp dụng cho phương pháp parsimony.
Khác với phương pháp Parsimony có mô hình tiến hóa là một hàm ẩn, thì phương pháp khỏang cách – distance method lại có mô hình tiến hóa là một hàm hiện. Trong phương pháp này từng cặp trình tự một sẽ được so sánh thẳng hàng cặp đôi và ứng với từng cặp, khỏang cách di truyền sẽ được tính tóan. Do mô hình tiến hóa là một hàm hiện nên một trong số mô hình tiến hóa có thể được chọn để tính tóan khỏang cách di truyền giữa từng cặp taxa từ đó cho ra một ma trận khỏang cách giữa tất cả các taxa. Và để có được cây tiến hóa, phương pháp phân rã hình ngôi sao thường được sử dụng ví dụ phương pháp neighbor-joining. Do phương pháp neighbor-joining mà một trong những phương pháp nhanh nhất để dò tìm cây tiến hóa nên nó thường được sử dụng để phân tích khối dữ liệu lớn với nhiều taxa.
Phương pháp Maximum Likelihood - khả năng tối đa là phương pháp tiêu tốn nhiều thời gian nhất nhưng lại cho kết quả đáng tin cậy nhất. Mô hình tiến hóa dùng trong phương pháp này cũng là một hàm hiện. Ứng với mỗi mô hình tiến hóa được chọn, phương pháp này sẽ tính tóan khả năng xác suất (dưới dạng – ln L) mà một cây tiến hóa có thể có từ chuỗi trình tự phân tích. Cây tiến hóa có xác suất cao nhất là cây cuối cùng được chọn.
Ngòai 3 phương pháp kể trên còn có phương pháp Bayes.
2.8 Phân tích giá trị bootstrap
Phân tích bootstrap được thực hiện nhằm kiểm tra tính chính xác và độ tin cậy cho từng nhánh trong cây tiến hóa. Đầu tiên, các vị trí từ chuỗi trình tự đã sắp xếpthẳng hàng sẽ được đảo chỗ cho nhau một cách ngẫu nhiên để tạo ra nhiều mẫu phụ (gọi là sự lặp lại bootstrap). Như vậy các mẫu phụ có kích thước giống như mẫu gốc nhưng vị trí thành phần không giống nhau. Sau đó các mẫu phụ sẽ được trãi qua quá trình phân tích tương tự như mẫu gốc đã trãi qua. Kết quả từ những mẫu phụ sẽ được dùng để tính tóan giá trị support (ủng hộ) cho một nhánh đơn lẻ nào đó. Do giá trị support được biểu diễn bằng tỷ lệ % nên ít nhất phải có 100 lần lặp lại, tức 100 lần tạo mẫu phụ. Thông thường thì người ta làm với 1000 lần lặp lại. Nếu một nhóm taxa (clade) cho giá trị support từ 95% trở lên thì nhành của nhóm này được cho là được ủng hộ mạnh mẽ.
2.9 Sử dụng cây được định nghĩa theo người sử dụng
Ngay sau khi có kết quả cây tiến hóa, nhà nghiên cứu có thể so sánh kết quả với cây tiến hóa mà nhà nghiên cứu đã định nghĩa sẵn từ trước. Sự sai khác giữa hai cây tiến hóa này có thể giúp nhà nghiên cứu đi đến quyết định chấp nhận kết quả hay quay lại hiệu chỉnh.
2.10 Xuất bản cây tiến hóa
Sau khi có cây tiến hóa, nhà nghiên cứu có thể đưa cây tiến hóa vào những chương trình xử lý hình ảnh đồ hòa thông thường để hiệu chỉnh hay làm nổi bật nhóm lòai cần chú ý trước khi công bố.