Nguyễn Phước Hùng
Senior Member
Exploiting the genome: DNA motifs
Sự khai thác genome : DNA motifs (những mô hình DNA)
A commonly asked question among researchers analysing genomic data is, give n a set of microarray experiments where the activities of different cis-acting regulatory proteins vary, is it possible to predict the DNA protein-binding motifs upstream of the regulated genes? A paper just published in Microbiology describes an approach that addresses this issue.
Một câu hỏi thường được đặt ra cho các nhà nghiên cứu phân tích dữ liệu bộ gene là: với một bộ các thử nghiệm microarray với hoạt tính thay đổi của các protein điều hoà theo dạng cis, có thể dự đoán được các mô hình gắn của DNA với protein ở vùng upstream của các gen điều hoà hay không? Một bài bào công bố trên tạp chí
Microbiology mô tả một nghiên cứu chuyên sâu về nội dung này.
In an era where huge genomic and functional genomic data sets are being generated on a daily basis, a challenge for biologists is to develop techniques that allow the extraction of useful information that can inform and guide further experimental investigation. In this study, Haluk Resat and colleagues focused on the search for DNA motifs present in the genome of the photosynthetic bacterium Rhodobacter sphaeroides that bind three transciption factors known to regulate photosynthetic gene expression — PrrA, PpsR and FnrL. The approach used by the authors was to first perform a hierarchical clustering of R. sphaeroides genes using microarray mRNA expression data to identify genes that showed similar expression patterns under different experimental conditions. Second, the DNA sequences upstream of these genes were analysed for signature sites that suggested possible co-regulation. These sites were then used to generate predicted consensus sequences that formed the basis of a whole-genomelevel search to identify putative new target genes for these regulators.
Trong một kỉ nguyên mà những dữ liệu đồ sộ về gene và chức năng của genome đang được cập nhật hàng ngày, một thách thức cho các nhà sinh học là phải phát triển những kĩ thuật cho phép chọn lọc, trích chép các thông tin hữu dụng mà từ đó có thể cung cấp các tin tức và hướng dẫn các nghiên cứu thực nghiệm xa hơn. Trong nghiên cứu này, Haluk Reasat và các đồng sự đã tập trung nghiên cứu đối với các mô hình DNA hiện diện trong bộ gene của vi khuẩn quang hợp Rhodobacter sphaeroides để gắn với ba nhân tố phiên mã PrrA, PpsR và FnrL để điều hòa sự biểu hiện của gene quang tổng hợp. Trong phương pháp thực hiện của mình, đầu tiên các tác giả biểu hiện một cụm gen theo thứ tự của ?R. sphaeroides, dùng các biểu hiện mRNA trên microarray để nhận biết các gene thể hiện các mô hình biểu hiện tương tự nhau trong các điều kiện thí nghiệm giống nhau. Tiếp đến, các trình tự DNA ở đoạn upstream của những gene này được phân tích để tìm ra những vị trí nhận diện mà nó có thể là các đồng yếu tố điều hoà. Những vị trí này sau đó được dùng để tiên đoán những trình tự consensus mà đó là nền tảng cho việc tìm kiếm ở cấp độ toàn bộ bộ gene để xác định những gene đích mới đối với những nhân tố điều hoà.
As a validation of the approach, Mao et al. independently identified PpsR and FnrL binding sites that were consistent with previously published consensus sequences for these transcription factors. The authors also extended the number of possible target genes regulated by these proteins. Further analysis of the PrrA DNA-binding sequence indicated that it consists of two conserved elements with a variable-sized gap in between. Last, using the three consensus sequences, a whole genome analysis of the R. sphaeroides genome revealed that the PrrA regulon was considerably larger than that of PpsR and FnrL, providing evidence that PrrA is a global regulator for gene expression in this microorganism.
Bằng một phương pháp hợp lý, Mao và cộng sự đã độc lập xác định những trình tự gắn với PpsR và FnrL mà nó tương thích với những trình tự consensus đã được công bố trước đó đối với những nhân tố phiên mã này. Các tác gỉa cũng đã mở rộng số lượng gene đích có thể được điều hoà bởi các protein trên. Những phân tích kĩ ?hơn về trình tự gắn trên DNA của Prr A chỉ ra rằng nó gồm hai vùng bảo tồn với một lỗ hổng có kích thước biến đổi ở giữa. Sau cùng, sử dụng ba trình tự consensus, một sự phân tích ?toàn phần genome của R.sphaeroides đã hé mở rằng PrrA relugon đáng kể hơn nhiều so với PpsR và FnrL, từ đó cung cấp bằng chúng cho rằng PrrA là một yếu tố điều hoà toàn cục đối với ?sự biểu hiện của gene trong sinh vật .
? ? ?
The authors note that, as with all prediction techniques, the generation of false-positive and false-negative results is possible; however, the technique is sufficiently robust to assist in the useful prediction of genes regulated by these transcription factors. The approach should also be applicable to additional gene clusters derived from microarray data, and facilitate the identification of regulatory elements crucial to other biological processes.
Các tác gỉa chú ý rằng, tất cả những kĩ thuật dự đoán đều có thể sinh ra những kết qủa âm tính gỉa hay dương tính gỉa; tuy nhiên kĩ thuật này đủ hiệu quả để giúp cho việc tiên đoán hữu dụng của những gene được điều hòa bởi những nhân tố phiên mã này. Phương pháp này cũng nên được áp dụng với những nhóm gene khác nữa từ các dữ liệu microarray và thuận tiện cho việc xác định những nhân tố điều hòa cốt lõi ?đối với những qúa trình sinh học khác .
?
David O’Connell
Research hightlight
Nature reviews/Microbiology november 2005
Sự khai thác genome : DNA motifs (những mô hình DNA)
A commonly asked question among researchers analysing genomic data is, give n a set of microarray experiments where the activities of different cis-acting regulatory proteins vary, is it possible to predict the DNA protein-binding motifs upstream of the regulated genes? A paper just published in Microbiology describes an approach that addresses this issue.
Một câu hỏi thường được đặt ra cho các nhà nghiên cứu phân tích dữ liệu bộ gene là: với một bộ các thử nghiệm microarray với hoạt tính thay đổi của các protein điều hoà theo dạng cis, có thể dự đoán được các mô hình gắn của DNA với protein ở vùng upstream của các gen điều hoà hay không? Một bài bào công bố trên tạp chí
Microbiology mô tả một nghiên cứu chuyên sâu về nội dung này.
In an era where huge genomic and functional genomic data sets are being generated on a daily basis, a challenge for biologists is to develop techniques that allow the extraction of useful information that can inform and guide further experimental investigation. In this study, Haluk Resat and colleagues focused on the search for DNA motifs present in the genome of the photosynthetic bacterium Rhodobacter sphaeroides that bind three transciption factors known to regulate photosynthetic gene expression — PrrA, PpsR and FnrL. The approach used by the authors was to first perform a hierarchical clustering of R. sphaeroides genes using microarray mRNA expression data to identify genes that showed similar expression patterns under different experimental conditions. Second, the DNA sequences upstream of these genes were analysed for signature sites that suggested possible co-regulation. These sites were then used to generate predicted consensus sequences that formed the basis of a whole-genomelevel search to identify putative new target genes for these regulators.
Trong một kỉ nguyên mà những dữ liệu đồ sộ về gene và chức năng của genome đang được cập nhật hàng ngày, một thách thức cho các nhà sinh học là phải phát triển những kĩ thuật cho phép chọn lọc, trích chép các thông tin hữu dụng mà từ đó có thể cung cấp các tin tức và hướng dẫn các nghiên cứu thực nghiệm xa hơn. Trong nghiên cứu này, Haluk Reasat và các đồng sự đã tập trung nghiên cứu đối với các mô hình DNA hiện diện trong bộ gene của vi khuẩn quang hợp Rhodobacter sphaeroides để gắn với ba nhân tố phiên mã PrrA, PpsR và FnrL để điều hòa sự biểu hiện của gene quang tổng hợp. Trong phương pháp thực hiện của mình, đầu tiên các tác giả biểu hiện một cụm gen theo thứ tự của ?R. sphaeroides, dùng các biểu hiện mRNA trên microarray để nhận biết các gene thể hiện các mô hình biểu hiện tương tự nhau trong các điều kiện thí nghiệm giống nhau. Tiếp đến, các trình tự DNA ở đoạn upstream của những gene này được phân tích để tìm ra những vị trí nhận diện mà nó có thể là các đồng yếu tố điều hoà. Những vị trí này sau đó được dùng để tiên đoán những trình tự consensus mà đó là nền tảng cho việc tìm kiếm ở cấp độ toàn bộ bộ gene để xác định những gene đích mới đối với những nhân tố điều hoà.
As a validation of the approach, Mao et al. independently identified PpsR and FnrL binding sites that were consistent with previously published consensus sequences for these transcription factors. The authors also extended the number of possible target genes regulated by these proteins. Further analysis of the PrrA DNA-binding sequence indicated that it consists of two conserved elements with a variable-sized gap in between. Last, using the three consensus sequences, a whole genome analysis of the R. sphaeroides genome revealed that the PrrA regulon was considerably larger than that of PpsR and FnrL, providing evidence that PrrA is a global regulator for gene expression in this microorganism.
Bằng một phương pháp hợp lý, Mao và cộng sự đã độc lập xác định những trình tự gắn với PpsR và FnrL mà nó tương thích với những trình tự consensus đã được công bố trước đó đối với những nhân tố phiên mã này. Các tác gỉa cũng đã mở rộng số lượng gene đích có thể được điều hoà bởi các protein trên. Những phân tích kĩ ?hơn về trình tự gắn trên DNA của Prr A chỉ ra rằng nó gồm hai vùng bảo tồn với một lỗ hổng có kích thước biến đổi ở giữa. Sau cùng, sử dụng ba trình tự consensus, một sự phân tích ?toàn phần genome của R.sphaeroides đã hé mở rằng PrrA relugon đáng kể hơn nhiều so với PpsR và FnrL, từ đó cung cấp bằng chúng cho rằng PrrA là một yếu tố điều hoà toàn cục đối với ?sự biểu hiện của gene trong sinh vật .
? ? ?
The authors note that, as with all prediction techniques, the generation of false-positive and false-negative results is possible; however, the technique is sufficiently robust to assist in the useful prediction of genes regulated by these transcription factors. The approach should also be applicable to additional gene clusters derived from microarray data, and facilitate the identification of regulatory elements crucial to other biological processes.
Các tác gỉa chú ý rằng, tất cả những kĩ thuật dự đoán đều có thể sinh ra những kết qủa âm tính gỉa hay dương tính gỉa; tuy nhiên kĩ thuật này đủ hiệu quả để giúp cho việc tiên đoán hữu dụng của những gene được điều hòa bởi những nhân tố phiên mã này. Phương pháp này cũng nên được áp dụng với những nhóm gene khác nữa từ các dữ liệu microarray và thuận tiện cho việc xác định những nhân tố điều hòa cốt lõi ?đối với những qúa trình sinh học khác .
?
David O’Connell
Research hightlight
Nature reviews/Microbiology november 2005