Tập hợp sequences để làm phylogenetic tree

Nguyễn Ngọc Lương

Administrator
Staff member
Chào mọi người!
Mình có câu hỏi như thế này:
Mình cần align và build tree cho 1 nhóm các protein có nhiều domain. Mình sẽ build tree cho từng domain riêng rẽ. Tuy nhiên hiện tại mình gặp khó khăn trong việc tạo một cái file sequence cho multiple alignment (dạng file txt hay dùng cho clustalx đó). Đã có lần mình "mày mò" ra các nhặt các domain ra từ các sequences mình chọn trên ncbi nhưng không hiểu sao giờ không thể nhớ ra đã làm như thế nào ;)
Có bạn nào có thể giúp không?

Tiện mình có 1 vấn đề thế này muốn hỏi:
Mình có vài genomic segments của 1 loài nấm. Mình đã dùng phần mềm dự đoán được một số đặc điểm của gene như Transcription starting site, Start & Stop codon, exon/intron và PolyA. Ngặt nỗi là nếu mình sử dụng các model organisms khác nhau (tất cả các model organisms này đều là fungi) thì thường kết quả khác nhau. Đôi khi chỉ là khác nhau ở TSS,PolyA và một vài intron/exon. Nhưng đôi khi cũng có sự khác biệt rất lớn khi gene dự đoán có thể dài thêm gần cả vài trăm a.a nữa.

Để chọn model organism phù hợp để dự đoán cái gene của mình thì mình chọn các phương pháp là:
+ kiểm tra độ dài của putative protein bằng blastp (xem coverage bao nhiêu %). Nếu mà thòi ra đoạn dài không match so với đa số các protein tương đồng thì mình loại model organism đó
+ kiểm tra độ tương đồng cái gene của mình với gene tương ứng ở loài khác, chọn loài có gene tương ứng có độ tương đồng cao nhất làm model organism
+ xây dựng cái phylogentic tree dựa trên 18S của các loài model này với loài nấm của mình và chọn loài gần nhất làm model.

Theo các bạn thì cái nào ổn nhất? Và liệu làm như vậy có logic chưa? Hay có phương pháp khác hay hơn?
 

Facebook

Thống kê diễn đàn

Threads
11,649
Messages
71,548
Members
56,922
Latest member
188bettone
Back
Top