Giới thiệu về Phylogeny, các bước cơ bản tiến hành

Trần Hoàng Dũng

Administrator
Staff member
dontcry:

Loạt bài về Phylogenomics, Phylogeny của anh lonxon hiện có các link sau:

1. Bài này :D
2. Giới thiệu về phylogenomics

Tôi ghi lại các link này để mọi người biết chỗ thảo luận cho đúng.

---------------------------------------------


Bài này tóm lược những bước cơ bản của một đề tài phylogeny, hy vọng các bạn sau khi đọc xong sẽ có cái nhìn sơ lược về phylogenetic papers


Giới thiệu về Phylogeny, các bước cơ bản tiến hành phân tích.

1. Khái niệm về Phylogeny

Phylogeny xuất phát từ sự kết hợp hai từ gốc Hy Lạp: Phylo nghĩa là stem tức trực hệ (tuyến tính của một dòng họ) và genesis tức là nguồn gốc – tạm dịch phylogeny là sự phát sinh chủng lòai. Tính từ của nó là phylogenetic

Trong ngành molecular phylogeny, người ta nghiên cứu mối quan hệ giữa các lòai sinh vật thông qua các bằng chứng phân tử, cụ thể là trình tự DNA và protein. Như vậy sự khác biệt giữa các trình tự (DNA) chỉ định sự phân kỳ di truyền như là kết quả của tiến hóa phân tử theo tiến trình thời gian.

Các phương pháp dùng để nghiên cứu phát sinh chủng lòai chủ yếu dựa trên một sự giả định về các tiến trình tiến hóa ở mức phân tử thông qua việc quan sát phân tích trình tự DNA hoặc protein. Bằng cách sử dụng cộng cụ máy tính, các chuỗi dữ liệu sẽ được mô phỏng tiến trình tiến hóa và phân tích tiến trình phát sinh chủng lòai. Giả sử là chúng ta có một „cây tiến hóa đúng“, chúng ta có thể dùng nó để để kiểm tra lại độ chính xác, tính nhất quán khả năng tin cậy của những mô hình tiến hóa. Tuy nhiên khi sử dụng các dữ liệu sinh học, cái gọi là cây tiến hóa có thể không bao giờ có, hoặc ít ra cũng có thể nói là KHÔNG BIẾT. Do vậy người ta chấp nhận một cây tiến hóa được dựng nên mà người ta tin là nó GIỐNG NHẤT với cây tiến hóa đúng.

Các trình tự cơ bản để cho một nghiên cứu phát sinh chủng lòai phân tử

Tùy thuộc nhiều vấn đề mà các bước của một nghiên cứu phát sinh chủng lòai phân tử có thể thiết lập khác nhau, nhưng cơ bản nó gồm các bước sau:

1. Xác định mục tiêu, lấy mẫu sinh vật và họ gene
2. Chọn marker phân tử, tức gene hay protein cần đọc trình tự
3. Đọc trình tự, hiệu chỉnh trình tự
4. Sắp xếp thẳng hàng các trình tự
5. Chọn mô hình tiến hóa
6. Phân tích sự phát sinh chủng loài
7. Đọc cây tiến hóa
8. Kiểm tra cây tiến hóa
9. Chấp nhận kết quả hoặc quay lại bước 2

2.1 Chọn lựa dữ liệu và lấy mẫu đại diện

Nếu việc mục đích việc phân tích phát sinh chủng lòai chỉ nhằm nghiên cứu trên một họ gene, ví dụ họ glycerin aldehyd dehydrogenase thì việc chọn lựa dữ liệu quá dễ dàng.

Tuy nhiên khi quan tâm đến sự phát sinh chủng lòai của một nhóm sinh vật thì việc chọn dữ liệu có thể mở rộng hơn, chẳng hạn kết hợp nhiều gene hoặc nhiều vùng DNA khác nhau. Với những lòai sinh vật mà người ta cho là nó có quan hệ gần thì người ta có thể chọn những gene hay vùng DNA có độ linh động cao (như intron hay ITS), nhưng với nhóm sinh vật có quan hệ xa thì người ta lại chọn gene hay vùng DNA có độ bảo tồn cao (ví dụ ribosomal LSU rDNA, gene mã hóa protein). Nếu việc chọn gene hay vùng DNA có độ bảo tồn quá hay độ biến thiên cao quá sẽ có thể ảnh hưởng đến kết quả cuối cùng, vì vậy khuynh hướng hiện nay cũng là khuynh hướng tốt nhất là người ta kết hợp cả hai hướng này cho cùng một nghiên cứu.

Trong việc chọn mẫu sinh vật đại diện, người ta có khuynh hướng chọn những lòai đại diện sao cho nó thể hiện tính da dạng sinh học tốt nhất có thể. Thông thường để thỏa mãn đòi hỏi này người ta thường chọn 2 lòai đại diện cho một nhóm hình thái đã biết trước khá rõ, trong trường hợp lòai hình thái rời rạc hoặc khái niệm lòai vẫn còn là nghi vấn thì thì có thể chọn đại diện sao cho nó kết hợp mọi đặc tính hình thái đang khảo sát.

Với trường hợp phân tích một họ gene thì 2 điều kiện bắt buộc phải thỏa mãn là:
1- sinh vật chọn lấy mẫu phải đảm bảo tính đa dạng sinh học
2- gene trực giao và gene đẳng giao (orthologous và paralogous) trong cùng một sinh vật lấy mẫu phải được đọc trình tự đầy đủ

Số lượng taxon cũng ảnh hưởng rất lớn đến kết quả phân tích. Nếu lấy được nhiều lòai đại diện thì khả năng lỗi hệ thống và một số vấn đề phát sinh khác có thể giảm xuống. Với những lòai mà người ta nghi ngờ nó có thể gây ra hiện tượng „nhiễu“ kết quả thì khi đó người ta buộc phải thêm vào một hoặc nhiều lòai mà nó gần hoặc cùng taxa với lòai nghi ngờ này. Điều này đặc biệt có ý nghĩa quyết định khi kết quả phân tích sơ bộ cho thấy tốc độ tiến hóa của những taxa khác nhau có những sai khác quá lớn. Nói cách khác việc cho thêm các taxa có quan hệ gần với taxa nghi ngờ gây nhiễu sẽ giúp kiểm chứng lại kết quả sơ bộ này.

Để xác định hướng tiến hóa, việc thêm nhóm đối chứng (outgroup) có ý nghĩa quan trọng đáng kể. Thông thường để tăng độ chính xác của cây tiến hóa, nhóm outgroup được chọn thường là nhóm có quan hệ gần nhất với nhóm đang được phân tích. Song song đó, người ta còn phải tiến hành phân tích mà không có nhóm ngọai nhưng thay vào đó cây tiến hóa phải là cây không có gốc (unrooted tree). Điều này sẽ giúp gia tăng mức ủng hộ với các nhánh trung gian.

2.2 Đọc trình tự gene, hiệu chỉnh trình tự

Do các phân tích phát sinh chủng lòai dựa trên những sự khác biệt khi quan sát các trình tự được so sánh thẳng hàng. Do đó lỗi trình tự sẽ có thể đưa đến một cây tiến hóa kô thật chính xác. Đặc biệt với trường hợo vùng DNA có độ bảo tồn cao và nhà phân tích chọn mô hình tiến hóa phức tạp thì lỗi trình tự sẽ cho ra kết quả có độ sai khác rất lớn.

Để tránh trường hợp lỗi trình tự do chủ quan, người ta buộc phải đọc trình tự cả hai sợi để việc hiệu chỉnh sau đó được đảm bảo tính khách quan hơn.

2.3 Sắp xếp thẳng hàng

Tiến trình này có thể thực hiện bằng máy tính một cách tự động hay thủ công. Thông thường thì có thể dùng Clustal X/W để thực hiện công việc này. Nhưng với những gene hay vùng DNA kém bảo tồn, và/hoặc chứa indel thì quá trình sắp xếp thẳng hàng tự động rất dễ gây ra lỗi. Do đó với gene hay vùng DNA có độ biến thiên cao người ta phải trực tiếp thực hiện quá trình sắp xếp thẳng hàng bằng mắt.

Việc thực hiện quá trình sắp xếp thẳng hàng còn là cơ hội để nhà nghiên cứu kiểm tra lại lần cuối độ chính xác của trình tự vừa mới giải trình.

Với những vùng không có khả năng sắp xếp thẳng hàng thì người ta sẽ dứt khóat lọai bỏ trước khi đưa vào phân tích.

2.4 Chọn lựa mô hình tiến hóa

Mô hình tiến hóa dành cho trình tự DNA ngày càng trở nên phức tạp. Các thông số cơ bản thường có trong mô hình tiến hóa là tần xuất base, ma trận tốc độ biến đổi, phân bố gamma, tỷ lệ vị trí hằng định (không biến thiên) và sự đồng tiến hóa.

Trong mô hình tiến hóa đơn giản nhất, người ta giả định là tần xuất xuất hiện các base là như nhau, nghĩa là tại một vị trí cho trước có 25% cho một trong 4 base ATGC xuất hiện. Tuy nhiên thông thường, tần xuất base thường được ước tính trước đó từ chuỗi dữ liệu đưa vào phân tích do đó mà tần xuất thực sự của mỗi base ứng với những chuỗi dữ liệu khác nhau sẽ khác nhau.

Cũng trong mô hình tiến hóa đơn giản nhất, tốc độ biến đổi cũng được giả định là bằng nhau cho mỗi dạng đột biến điểm. Khi đó số lượng các dạng biến đổi trong mô hình tiến hóa này được thiết lập là 1.

Trong mô hình tiến hóa có 2 dạng biến đổi, thông thường là đồng hóa và dị hóan, người ta sẽ gán cho hai dạng biến đổi này hai giá trị khác nhau.

Mô hình tiến hóa phức tạp nhất hiện nay là mô hình có khả năng hồi biến tổng quát theo thời gian (General time reverible model). Mô hình này cho rằng có 6 kiển biến đổi và mỗi kiểu biến đổi có một tốc độ khác nhau. Ngòai ra còn có một mô hình khác gọi là maô hình không hồi biến gồm 12 tốc độ tiến hóa khác nhau, nhưng mô hình này khônh được sử dụng trong các chương trình phân tích phát sinh chủng lòai chuẩn.

Tốc độ biến thiên theo phân bố gamma và tỷ lệ các vị trí không biến thiên cho phép đánh giá một vùng DNA có độ bảo tồn cao hay thấp. Ví dụ trong ribosomal DNA cho thấy „vùng loop“ có độ biến thiên khá cao trong khi „vùng helical“ lại có mức bảo tồn khá lớn. Ở những vùng mã hóa protein, vị trí base thứ 3 trong mã condon (vị trí wobble) lại khá biến thiên so với vị trí thứ nhất và thứ 2.

Việc tính tóan tỷ lệ vị trí không biến thiên cho phép giải thích có bao nhiêu vị trí không tiến hóa, trong khi đó tính tóan phân bố gamma lại cho biết tỷ lệ các vị trí tiến hóa nhanh hay chậm.

Sự đồng tiến hóa cho phép đánh giá một trình tự liệu có thể tiến hóa nhanh hơn các trình tự khác hay không. Tuy nhiên thông số này ít khi thấy hiện diện trong các chương trình phân tích phát sinh chủng lòai.

Bằng cách kết hợp tần xuất base, ma trận tốc độ biến đổi, tỷ lệ vị trí hằng định, tốc độ biến thiên theo phân bố gamma, chương trình phân tích phát sinh chủng lòai mang tên PAUP cho phép thiết lập đến 56 mô hình tiến hóa.

Trước khi chuỗi dữ liệu thực sự được tính tóan và phân tích, chúng phải trãi qua quá trình kiểm tra dò tìm mô hình tiến hóa thích hợp. Với các mô hình tiến hóa lồng ghép (nested) thì có thể dùng phép kiểm tra tỷ lệ khả năng theo cấp bậc, còn với các mô hình tiến hóa không lồng ghép thì có thể dùng chuẩn thông tin Akaike. Chương trình Modeltest cho pháp thực hiện bước kiểm tra này.

2.5 Phân tích phát sinh chủng lòai và dò tìm cây tiến hóa tối thích

Vài phương pháp nhằm suy luận cây phát sinh chủng lòai đã được biết khá rõ hiện nay đều là những phương pháp kết hợp thuật tóan dò tìm cây tối thích và một nhóm tiêu chuẩn tối ưu chọn trước. Tiến trình thực hiện của nó là dò tìm những cây tiến hóa tối thích, sau đó những cây tiến hóa này được đánh giá dưới những tiêu chuẩn tối ưu chọn trước để cho ra một cây tiến hóa tốt nhất.

Về mặt lý thuyết, việc dò tìm được xem là tối ưu là phải dò tìm cho bằng hết, không bỏ sót. Như vậy nghĩa là tất cả các cây tiến hóa phải được đánh giá dưới những tiêu chuẩn tối ưu chọn trước. Trong thực nghiệm, điều này chỉ có thể thực hiện nếu chỉ có vài taxa được phân tích. Ví dụ với 30 taxa, có thể cho ra đến 1.4068 x 109, nếu cho tất cả cây này trãi qua quá trình đánh giá thì sẽ tiêu tốn rất nhiều thời gian và đòi hỏi máy tính phải có cấu trúc từ mạnh đến cực mạnh. Do đó việc dò tìm bằng hết các cây tiến hết là điều không tưởng.

Do đó trong thực nghiệm người ta chọn hai phương pháp dò tìm cây tiến hóa đó là phương pháp branch-and-bound và phương pháp heuristics.

Trong phương pháp branch-and bound, một cây được coi là tốt nhất sẽ được lựa chọn, sau đó cây này được đánh giá cho điểm theo các tiêu chuẩn đã chọn trước. Cây này sẽ được giữ trong bộ nhớ và điểm của cây này được xem là „điểm chuẩn“. Điểm các cây khác được so sánh, nếu dưới điểm chuẩn sẽ bị bỏ quá, nếu cao hơn điểm chuẩn thì sẽ trở thành cây tốt nhất mới với điểm chuẩn mới. Tiến trình cứ thế tiếp tục cho đến hết. Thuật tóan này cho phép dò tìm cây tiến hóa tốt nhất nhưng lại tiêu tốn nhiều thời gian.

Phương pháp heuristics mặc dù không cho kết quả chính xác cao như phương pháp trên nhưng vẫn thường được dùng.

Ngòai ra còn một phương pháp nữa là phương pháp phân rã hình ngôi sao. Phương pháp này có nguyên lý là đầu tiên một hình cây dạng ngôi sao không hòan chỉnh được tạo thành, kế đến một taxa liên hệ gần nhất được đưa vào sao cho nó phải tìm được vị trí tốt nhất. Tiến trình thực hiện nhiều lần cho đến khi cây tiến hóa hình thành.

2.6 Phân tích phát sinh chủng lòai - Tiêu chuẩn tối ưu

Trong phương pháp Maximum parsimony (MP -hà tiện tối đa), một sự giả định cho rằng cây tiến hóa tốt nhất mổ tả tiến trình tiến hóa tốt nhất chính là cây mô tả được các lòai ít thay đổi nhất tức là có ít đột biến nhất, cây vì thế có điểm thấp nhất (hà tiện) theo một tiêu chuẩn định sẵn. Trong phương pháp parsimony dành cho cây không có gốc, tất cả base tại tất cả vị trí được xem là có tốc độ tiến hóa như nhau. Phương pháp dò tìm cây theo thuật tóan heuristics thường áp dụng cho phương pháp parsimony.

Khác với phương pháp Parsimony có mô hình tiến hóa là một hàm ẩn, thì phương pháp khỏang cách – distance method lại có mô hình tiến hóa là một hàm hiện. Trong phương pháp này từng cặp trình tự một sẽ được so sánh thẳng hàng cặp đôi và ứng với từng cặp, khỏang cách di truyền sẽ được tính tóan. Do mô hình tiến hóa là một hàm hiện nên một trong số mô hình tiến hóa có thể được chọn để tính tóan khỏang cách di truyền giữa từng cặp taxa từ đó cho ra một ma trận khỏang cách giữa tất cả các taxa. Và để có được cây tiến hóa, phương pháp phân rã hình ngôi sao thường được sử dụng ví dụ phương pháp neighbor-joining. Do phương pháp neighbor-joining mà một trong những phương pháp nhanh nhất để dò tìm cây tiến hóa nên nó thường được sử dụng để phân tích khối dữ liệu lớn với nhiều taxa.

Phương pháp Maximum Likelihood - khả năng tối đa là phương pháp tiêu tốn nhiều thời gian nhất nhưng lại cho kết quả đáng tin cậy nhất. Mô hình tiến hóa dùng trong phương pháp này cũng là một hàm hiện. Ứng với mỗi mô hình tiến hóa được chọn, phương pháp này sẽ tính tóan khả năng xác suất (dưới dạng – ln L) mà một cây tiến hóa có thể có từ chuỗi trình tự phân tích. Cây tiến hóa có xác suất cao nhất là cây cuối cùng được chọn.

Ngòai 3 phương pháp kể trên còn có phương pháp Bayes.

2.8 Phân tích giá trị bootstrap

Phân tích bootstrap được thực hiện nhằm kiểm tra tính chính xác và độ tin cậy cho từng nhánh trong cây tiến hóa. Đầu tiên, các vị trí từ chuỗi trình tự đã sắp xếpthẳng hàng sẽ được đảo chỗ cho nhau một cách ngẫu nhiên để tạo ra nhiều mẫu phụ (gọi là sự lặp lại bootstrap). Như vậy các mẫu phụ có kích thước giống như mẫu gốc nhưng vị trí thành phần không giống nhau. Sau đó các mẫu phụ sẽ được trãi qua quá trình phân tích tương tự như mẫu gốc đã trãi qua. Kết quả từ những mẫu phụ sẽ được dùng để tính tóan giá trị support (ủng hộ) cho một nhánh đơn lẻ nào đó. Do giá trị support được biểu diễn bằng tỷ lệ % nên ít nhất phải có 100 lần lặp lại, tức 100 lần tạo mẫu phụ. Thông thường thì người ta làm với 1000 lần lặp lại. Nếu một nhóm taxa (clade) cho giá trị support từ 95% trở lên thì nhành của nhóm này được cho là được ủng hộ mạnh mẽ.

2.9 Sử dụng cây được định nghĩa theo người sử dụng

Ngay sau khi có kết quả cây tiến hóa, nhà nghiên cứu có thể so sánh kết quả với cây tiến hóa mà nhà nghiên cứu đã định nghĩa sẵn từ trước. Sự sai khác giữa hai cây tiến hóa này có thể giúp nhà nghiên cứu đi đến quyết định chấp nhận kết quả hay quay lại hiệu chỉnh.


2.10 Xuất bản cây tiến hóa

Sau khi có cây tiến hóa, nhà nghiên cứu có thể đưa cây tiến hóa vào những chương trình xử lý hình ảnh đồ hòa thông thường để hiệu chỉnh hay làm nổi bật nhóm lòai cần chú ý trước khi công bố.
 
Cám ơn bác đã có bài hướng dẫn rất cặn kẽ. Thông thường, ng xây dựng cây sinh loài thường phải "chấp nhận" các tiên đề sau:

1. Thuyết tiến hóa Darwin về tổ tiên chung (common descent)
2. Thuyết tiến hóa trung tính đối với các đột biến DNA -> nghĩa là ko có áp lực CLTN
3. Không có trường hợp hồi biến

Phần bác thảo luận về hiệu chỉnh lỗi đọc trình tự và làm Clustal tôi thấy rất tâm đắc.

Tôi thấy bác có đề cập đến pp Bayes hay Bayesian thì ko biết thuật giải này có điểm gì mới ko vì thấy xu hướng sử dụng thuật giải này ngày một nhiều.

Trong Phylip có phát triển thêm thuật giải tổ hợp với đồng hồ tiến hóa (molecular clock) ko biết bác có hay dùng ko?
 
CHủ đề này rất hay, bài viết có chất lượng cao mà ít người thảo luận quá nhỉ. Kiến thức Em còn NON nên chưa giám thảo luận gì. Chỉ xin bác Loxon Post tiếp chủ đề này đi. Kiến thức cơ bản rồi, Bác post bài sâu hơn đi nhé
?Mong bài của Bác nhiều
BYE
 
Cho em hỏi là sắp xếp thẳng hàng bằng clustal W và clustal V (hay các chương trình khác) có khác gì nhau không và nguyên tắc sắp xếp thẳng hàng là như thế nào? Em đã từng sử dụng phần mềm DNA star để sắp xếp thẳng hàng, trong đó có hai kiểu align (theo clustal W và clustal V). Kết quả là chúng có thể cho ra những cây phát sinh chủng loại khác nhau một chút.
Theo em được biết các chương trình phần mềm vẽ cây phát sinh chủng loại hiện nay đã có phần chỉnh sửa khoảng cách di truyền để hạn chế sai sót do kô tính đến một số hiện tượng (như: hồi biến, đột biến nhiều lần tại một điểm hay tốc độ đột biến ở những vùng khác nhau là khác nhau) (khi sử dụng phương pháp khoảng cách) (ví dụ theo Kimura, JC, GTR..), nhưng em cũng chưa hiểu lắm về nguyên lý của các phương pháp này. Có bác nào giải thích giúp em với.
 
Cho em hỏi là sắp xếp thẳng hàng bằng clustal W và clustal V (hay các chương trình khác) có khác gì nhau không và nguyên tắc sắp xếp thẳng hàng là như thế nào? Em đã từng sử dụng phần mềm DNA star để sắp xếp thẳng hàng, trong đó có hai kiểu align (theo clustal W và clustal V). Kết quả là chúng có thể cho ra những cây phát sinh chủng loại khác nhau một chút.

Tui chưa dùng qua Clustal W hay V, vì lab tui kô xài nó, tui dùng SeaView.

Nguyên tắc sắp xếp thẳng hàng thì chỉ có một nguyên tắc là làm sao cho chúng khi nằm song song thẳng hàng sẽ cho ra cácv vùng bào tổn.

Việc cho ra các cây phát sinh chủng loại khác nhau là do ứng dụng các chương trình nói đúng hơn là các mô hình tính toán khác nhau chứ kô phụ thuộc vào sự sắp xếp thẳng hàng.

Theo em được biết các chương trình phần mềm vẽ cây phát sinh chủng loại hiện nay đã có phần chỉnh sửa khoảng cách di truyền để hạn chế sai sót do kô tính đến một số hiện tượng (như: hồi biến, đột biến nhiều lần tại một điểm hay tốc độ đột biến ở những vùng khác nhau là khác nhau) (khi sử dụng phương pháp khoảng cách) (ví dụ theo Kimura, JC, GTR..), nhưng em cũng chưa hiểu lắm về nguyên lý của các phương pháp này. Có bác nào giải thích giúp em với

Khi dùng Pau thì việc hiệu chỉnh các thông số mô hình tínnh toán đều có sẵn, chung quy là ta dùng mô hình tổng quát nhất phức tạp nhất để tính. Để hiểu cái này em cần đọc 2 cuốn là Molecula Evolution, kô giải thích nổi trên SHVN đâu.
 
Phạm Thủy Trang said:
Cho em hỏi là sắp xếp thẳng hàng bằng clustal W và clustal V (hay các chương trình khác) có khác gì nhau không và nguyên tắc sắp xếp thẳng hàng là như thế nào? Em đã từng sử dụng phần mềm DNA star để sắp xếp thẳng hàng, trong đó có hai kiểu align (theo clustal W và clustal V). Kết quả là chúng có thể cho ra những cây phát sinh chủng loại khác nhau một chút.

Clustal V được viết vào 1992 và nâng cấp thành Clustal W vào 1994 cùng bởi nhóm ở Heidelberg. Chi tiết xem ở

Clustal V: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubMed&cmd=Retrieve&dopt=Citation&list_uids=1591615

Clustal W: http://bips.u-strasbg.fr/fr/Documentation/ClustalW/clustalw-article.html

Ngoài ra phiên bản Clustal W sử dụng giao thức qua câu lệnh kiểu DOS, hiện giờ đã cải tiến thành Clustal X 1.8 để tiện sử dụng qua các giao diện đồ họa.
 
cho em hỏi thêm về bootstrap với ạ. em đọc bài thảo luận của các anh thì thấy, sau khi sắp xếp thẳng hàng thì thứ tự các nu được đảo chỗ ngẫu nhiên và so sánh lại. nhưng em chưa hình dung cụ thể được nó thay đổi như thế nào và tiếp theo thì nó so sánh như thế nào.
em chưa hiểu rõ bootstrap thực sự thế nào.

em mới tiếp cận vấn đề này nên rất mong các anh chị chỉ dẫn giúp em
 
Last edited:
Theo tôi biết thì quá trình làm boostrap như thế nào trong phylogenetic analysis khá phức tạp, mà chủ yếu là chương trình sẽ quyết định :D
Bạn có thể hình dung đơn giản hơn về khái niệm bootstrap bằng đoạn văn này ở wikipedia:
As an example, assume we are interested in the average (or mean) height of people worldwide. We cannot measure all the people in the global population, so instead we sample only a tiny part of it, and measure that. Assume the sample is of size N; that is, we measure the heights of N individuals. From that single sample, only one value of the mean can be obtained. In order to reason about the population, we need some sense of the variability of the mean that we have computed.
To use the simplest bootstrap technique, we take our original data set of N heights, and, using a computer, make a new sample (called a bootstrap sample) that is also of size N. This new sample is taken from the original using sampling with replacement so it is not identical with the original "real" sample. We repeat this a lot (maybe 1000 or 10,000 times), and for each of these bootstrap samples we compute its mean (each of these are called bootstrap estimates). We now have a histogram of bootstrap means. This provides an estimate of the shape of the distribution of the mean from which we can answer questions about how much the mean varies. (The method here, described for the mean, can be applied to almost any other statistic or estimator.)
The key principle of the bootstrap is to provide a way to simulate repeated observations from an unknown population using the obtained sample as a basis.


Hình dung đơn giản hơn là bạn có 1 đồng xu, giờ bạn muốn kiểm tra xác suất sấp ngửa của nó sau 1000 lần tung, như thể bạn có 1000 đồng xu. Việc bạn làm sẽ là tung đồng xu lên, ghi kết quả, sau đó bỏ vào túi, lấy ra lại rồi tung nó lên. Cái này trong thống kê họ gọi là resampling.

Tóm lại bootstrap là một công cụ thống kê nhằm giúp bạn quyết định các quan hệ phylogenetic của các đối tượng bạn làm việc có mức độ tin cậy đến đâu, qua đó giúp bạn quyết định cây phân loài theo giả định của bạn. Tuy nhiên nó cũng như nhiều công cụ thống kê khác, được xài một cách bừa bãi mà không được hiểu đầy đủ :D

Tôi cũng mong có cao nhân nào kiến giải để hiểu rõ hơn về quy trình làm bootstrap trong phylogenetic analysis
 
Last edited:
Hình dung đơn giản hơn là bạn có 1 đồng xu, giờ bạn muốn kiểm tra xác suất sấp ngửa của nó sau 1000 lần tung, như thể bạn có 1000 đồng xu. Việc bạn làm sẽ là tung đồng xu lên, ghi kết quả, sau đó bỏ vào túi, lấy ra lại rồi tung nó lên. Cái này trong thống kê họ gọi là resampling.

Cái này hình như anh Lương giải thích không đúng lắm: Giả sử ta tung 1000 lần và có thể ước lượng được xác suất sấp ngửa, nhưng câu hỏi là nếu ta tung 1000 lần khác thì giá trị ước lượng đó thế nào... Để có câu trả lời ta phải tung thêm 1000 lần nữa. Thay cho việc tung 2*1000 lần (mỏi tay gấp đôi), người ta bootstrap từ 1000 lần đầu. Giả sử 1000 lần đầu ta có
{s,n,s,n,s,s...}
s: sấp, n: ngửa
Thay cho việc tung 1000 lần tiếp, ta rút (có hoàn lại) ngẫu nhiên 1000 giá trị từ dãy trên (tức là ta hoàn toàn không phải tung gì cả mà chỉ là máy tính thực hiện một quá trình resample). Từ dãy rút ra đó lại ước lượng xác suất sấp ngửa. Vâỵ ta có hai ước lượng cho xác suất xấp ngửa. Làm như thế n lần ta có n giá trị, và thực tế có thể có một phân bố của giá trị ước lượng.

Vì trong quá trình trên thực tế ta không làm gì hơn cả, vẫn dựa trên dãy số liệu cũ để giả tạo một dãy số liệu mới nên gọi là bootstrap (giống như tự cầm tóc của mình để nhấc mình lên vậy.)
 
Last edited:
Hihi, cám ơn bạn Thảo đã chỉ ra chỗ sai.
Sau một hồi tìm kiếm google về bootstraping trong phylogenetic analysis of a.a sequence thì trang sau cho ta hình dung rõ ràng nhất:
http://www.icp.ucl.ac.be/~opperd/private/bootstrap.html

Lưu ý ở đây các con số lấy mẫu (sampling) sẽ được máy tạo ra ngẫu nhiên. Như vậy ta có các con số từ 0 đến 10 để thay vào đó, miễn sao tổng số lần lấy mẫu = 10.
 
Cảm ơn các bác đã nhảy vào giúp em hiểu thêm về vấn đề này. Em còn một chút thắc mắc nữa, mong các bác giải thích giúp.

1. vấn đề tạo mẫu phụ: bằng cách "các vị trí từ chuỗi trình tự đã sắp xếp thẳng hàng sẽ được đảo chỗ cho nhau một cách ngẫu nhiên để tạo ra nhiều mẫu phụ" - theo giải thích của bác Trần Hoàng Dũng.

Em chưa hiểu rõ về vấn đề này bởi vì em nghĩ là khi sequence ra 1 trình tự thì sao có thể đảo trình tự nucleotide đươc, bởi vì nó sẽ làm thay đổi trình tự aa, làm thay đổi chức năng của gen.

2. khi so sánh trình tự, thì mỗi lẫn so sánh với 1 trình tự chuẩn nào đó trên ngân hàng gen (có nghĩa là nếu so sánh 1000 lần với 1000 trình tự khác) hay so sánh với tất cả ngân hàng gene.

Mong các bác chỉ giúp thêm cho em với ạ
 
Bạn không xem cái trang web tôi gửi rồi. Bác Dũng diễn giải chưa chính xác. Không phải là xáo cột mà là "lấy mẫu". Như trong ví dụ ở trang web đó, sau khi bạn đã có sắp gióng cột như ma trận bên trái, bạn sẽ tạo ra các "mẫu giả" bằng cách xem mỗi cột là một lần lấy mẫu. Tổng cộng bạn có 10 cột, vậy nghĩa là bạn phải lấy mẫu 10 lần. Như vậy sẽ có những cột bạn không lấy lần nào, còn cột khác bạn lấy nhiều hơn 1 lần (ví dụ mẫu 1 thì cột số 5 được "lấy mẫu" 3 lần (bạn thấy nó lặp 3 lần ở ma trận phía bên phải), miễn là tổng số lần lấy mẫu = 10.
Lý do vì sao người ta làm như vậy mà lại có giá trị "thống kê" thì tôi không rõ. Nhưng bạn cứ hình dung có một cách gióng cột và tính khoảng cách tiến hóa đúng nhất đâu đó mà ta không biết. Vì ta không biết về nó, nên phải dùng các mô hình toán học để tính toán xấp xỉ. Và bootstrap là một phương pháp toán để thay vì kiểm tra tất cả các mô hình toán khác nhau thì chỉ làm việc với một mô hình, nhưng lại "resample" cái mẫu có sẵn để đảm bảo kết quả có được xấp xỉ với kết quả thực đâu đó mà ta không biết.

Tôi không hiểu câu hỏi 2 của bạn có liên quan gì đến phylogenetics.
 
Em chưa hiểu rõ về vấn đề này bởi vì em nghĩ là khi sequence ra 1 trình tự thì sao có thể đảo trình tự nucleotide đươc, bởi vì nó sẽ làm thay đổi trình tự aa, làm thay đổi chức năng của gen
Mình hiểu thế này: Tuy khả năng hoạt động của protein phụ thuộc vào thứ tự chuỗi amino acid, nhưng khoảng cách di truyền nói chung chỉ so sách hai chuỗi có bao nhiêu giống, bao nhiêu khác tại cùng một vị trí nên việc đảo lộn các cột (có thể xảy ra với resampling) nói chung không ảnh hưởng gì đến khoảng cách di truyền (nhưng có thể ảnh hưởng đến alignment nếu đảo lộn thực hiện trước alignment).

Hai bài này có vẻ classic về bootstrap trong phylogeny.

http://www.jstor.org/stable/2408678?seq=3

http://www.pnas.org/content/93/23/13429.full
 
cảm ơn các bác rất nhiều, em đã bắt đầu hiểu láng máng về cái bootstrap này rồi.

em xin nhờ các bác chỉ thêm cho em một chút nữa. khi em sử dụng bioedit để align các trình tự và chuyển sang MEGA để vẽ cây, em thấy có 3 dạng cây là Maximum Likehood, Neighbor-Joining, và Minimum Evolution.

Em hiểu là các cây này được hình thành bởi các cách kiểm tra bootstrap khác nhau thôi.

Vậy nên em muốn nhờ các bác kiểm tra giúp em xem em hiểu như thế có đúng không và em muốn biết thêm về bản chất 3 dạng cây này là thế nào.

Em đọc tài liệu thấy nó nói dạng NJ là dạng khá đơn giản, nhưng dạng ML mới có độ chính xác và tin cậy cao hơn. nhờ các bác chỉ thêm cho em về vấn đề này ạ.

Em xin cảm ơn rất nhiều.
 
em có ý kiến về bootstrap
Em có đọc một số bài dùng bootstrap thì họ nói là ít nhất phải lấy mẫu chiếm 80% tổng số mẫu có để thực hiện các bước trong bootstrap. Sau đó tính xác suất của các mẫu đó ở mức 1% hay 5% cho đến khi hết. Sau đó tính tỉ lệ % của các mẫu và đưa ra giá trị bootstrap posterior probability về sự xuất hiện của mẫu đó

Em cũng chưa rõ lắm, mong các bác chỉ giáo thêm
 
chào các bạn
các bạn làm ơn cho mình hỏi khi đọc bài báo về phân tích trình tự gen, mình thấy họ hay viết "các vị trí biến đổi có ý nghĩa parsimony", mình không hiểu ý nghĩa Parsimony nghĩa là gì?
bạn nào biết trả lời hộ mình với
Many thanks các bạn
 
em cảm ơn anh, bài viết rất hay ạ. Nó rất sát vào quy trình thực tế để dễ sử dụng, em cũng đang tìm hểu về vấn đề cây phát sinh, tuy không vào được đừng link nhưng đọc bài viết của anh em cũng hiểu được khá khá, hiện em đang thắc mắc về nghiên cứu phát sinh chủng loại dựa trên số liệu protein và isozyme, số liệu đa hình DNA (RFLP, RFAP, SSR), em có tìm hiểu nhưng không được rõ ràng lắm, anh có thể gửi em xin đường link chi tiết để em tìm hiểu thêm được không ạ?
 

Facebook

Thống kê diễn đàn

Threads
12,995
Messages
72,869
Members
45,065
Latest member
Go88aa
Back
Top