Chỉ định gene - Lấp lỗ hổng bộ gene giun tròn.

Dương Văn Cường

Administrator
Staff member
Hôm qua tôi có nói chuyện với anh Dũng, nhờ anh giúp phần NEWS của SHVN. Anh đồng ý và hôm này đã có ngay sản phẩm.

Vấn đề là ở chỗ yêu cầu phản biện của anh. Một mình tôi không đủ trình độ phản biện, chỉ ra những chỗ bất hợp lý của các bài viết này.

Vậy, xin phép anh đăng các bài viết này lên box riêng của nhóm để mọi người cùng mổ xẻ. Làm như vậy tiến độ sẽ nhanh hơn. Một mình em nhiều lúc công việc + các thứ khác cũng bận không thể dành thời gian cho website.

OKIE

----------------------------

CHỉ ĐịNH GENE - LấP Lổ HổNG Bộ GENE GIUN TRÒN


Mục đích cuối cùng của các chương trình ghi chú gene là chỉ định hay dự đóan một cách chính xác trình tự của từng gene một trong bộ gene của một sinh nào đó. Dựa trên bộ gene của Caenorhabditis elegants và bằng cách sử dụng chương trình ghi chú gene có tên là TWINSCAN, Wei và cộng sự (Genome Res, 15, 577-582 (2005)) đã khám phá 1.119 gene mới của lòai giun tròn này.

Mặc dù bộ gene của C. elegants đã hòan tất và công bố rộng rãi từ năm 1998, nhưng đến nay vẫn còn hàng ngàn gene mà người ta chưa tìm thấy các dấu hiệu hay bằng chứng là thực sự chúng tồn tại (các bằng chứng cho sự hiện diện của một gene có thể dò thấy bằng cDNA hay EST). Do vậy, đến nay đã có rất nhiều chương trình ghi chú gene đã được phát triển và tối ưu hóa riêng cho lòai giun tròn này. Nằm trong khuynh hướng nghiên cứu đó, Wei và cộng sự đã sử dụng các nguồn dữ liệu sẵn có để tiến hành các phân tích của riêng họ. Điểm đặc biệt là Wei và cộng sự lại sử dụng thuật tóan TWINSCAN vốn là một thuật tóan trước đây được xây dựng để ghi chú gene người. Điểm nổi bật trong phương pháp của họ là sự kết hợp khuynh hướng HMM (Hidden Markov Model) với các thông tin thu được từ quá trình so sánh genome cần so sánh (C. elegants) và genome chuẩn (C. briggsae).

Khi sử dụng thông tin từ tòan bộ genome C. elegants, các tác giả đã chỉ ra được 2.891 khung đọc mở không trùng với các khung đọc mở đã được ghi chú trên kho dữ liệu WormBase. Kế tiếp họ kiểm tra 256 khung đọc mở này bằng quy trình khuyếch đại và tạo dòng. Kết quả chi thấy 146 khung đọc mở (55%) là những khung đọc mở hòan tòan mới. Điều đặc biệt phải chú ý là những gene mới khám phá có đặc tính bảo thủ khá kém giữa hai lòai C. elegant và C. briggsae, nên nhớ những gene bảo thủ kém thường rất khó khăn để chỉ định và phân biệt chúng. Qua đó cho thấy phương pháp mà các tác giả sử dụng đã chứng tỏ điểm mạnh của nó.

Câu hỏi đặt ra là tại sao hướng nghiên cứu của We và cộng sự lại thành công (?). Các tác giả giải thích rằng chính là nhờ mô hình mà TWINSCAN sử dụng để phân biệt, chỉ định gene. Mô hình này dựa trên (1) điểm nối GC-AG, (2) phép phân bố độ dài intron và (3) kết quả sắp xếp genome C. elegants với C. briggsae. Chính mô hình này quyết định độ chính xác khi nhận diện, chỉ định gene của TWINSCAN.

Như vậy, theo kết quả nghiên cứu của Wei và cộng sự thì tổng số lượng gene thực chất ở lòai C. elegants sẽ có sự thay đổi, mặc dù bộ gene của C. elegants là một trong những bộ gene được ghi chú kỹ lưỡng nhất. Phương pháp này có khả năng áp dụng cho nhiều bộ gene khác như Arapidopsis thaliana vốn còn hơn 1000 gene chưa được ghi chú và hàng ngàn gene bị ghi chú sai. Được đánh giá là phương pháp dựa trên máy tính đầu tiên đạt được độ nhạy 60% trong việc chỉ định nhận diện chính xác protein trong cơ thể sinh vật đa bào, nên việc nghiên cứu ghi chú bộ gene khác trong tương lai sẽ có nhiều thuận lợi hơn.

Trần Hòang-Dũng (Ph.D student, IGSGFG, University of Cologne, Germany)
Theo Nature Reviews Genetics 6(6), 431-432 (2005)


Ý kiến của tôi về bài này:

- Về mặt câu cú chữ nghĩa thì ổn. Riêng có cái câu "dự đóan một cách chính xác trình tự của từng gene một trong bộ gene của một sinh nào đó" thì có vẻ như dịch hơi bị động, bởi lẽ làm sao mà dự đoán được chính xác trình tự cơ chứ ?

- Nói chung là người đọc hiểu được có 1 ông gì đó dùng 1 phương phán mới mẻ hay ho lắm đã tìm ra thêm bao nhiêu là gene mới của 1 đối tượng đã được nghiên kíu kỹ lắm rồi :)o hơi bị giật gân), còn cái chỗ TWINSCAN ra làm sao, tại sao các ông ấy lại thành công (điểm nối GC-AG, (2) phép phân bố độ dài intron và (3) kết quả sắp xếp genome C. elegants với C. briggsae.) thú thực là em không hiểu.

- Anh nên bổ xung phần giải nghĩa các thuật ngữ (giải thích nguyên lý): EST, khuynh hướng HMM, khung đọc mở. (vì bài sẽ đăng ở phần News, đối tượng đọc sẽ rất đa dạng).

-
 
Nếu lonxon tham gia làm phần này thì tốt quá. Còn về việc phản biện thì không phải dễ, vì thứ nhất là vấn đề chuyên môn, thứ hai là thời gian.

Vấn đề giải thích thêm một số thuật ngữ có vẻ cũng không khả thi lắm vì dịch ra, viết tóm lại, và type đã khá mất thời gian rồi. Tôi nghĩ cứ đăng lên, ai không hiểu chỗ nào thì hỏi. Ai biết thì trả lời ok.
 
Bài này đúng là lĩnh vực bác Dũng rồi.

Bọn này định danh gene (em ko thích từ chỉ định của bác) bằng HMM (nôm na là BLAST) và comparative genome (mà bác dịch là so sánh genome). Đây là hướng thiên về BI. Mục tiêu là dự đoán càng nhiều càng tốt. Lấy số lượng áp đảo chất lượng :D.

Bác check lại xem cái bọn này nó PCR để kiểm định ORF trên genome hay trên cDNA libary.

Bác cho em cái link đến server của TWINSCAN lên trên bài. Link các thuật ngữ cần chú thích đến Wiki. Những bài như của bác không chỉ nên viết đơn giản cho đại chúng (như là mục News hiện nay) mà cần có phần professional hơn để dân trong ngành làm TLTK chứ.

Bác cho luôn cái link đến phần fulltext hoặc upload lên cho mọi ng dễ tiếp cận nguồn.

Cuối cùng là cám ơn bác, cỗ vũ hết mình cho bác nhé.
 
dự đóan một cách chính xác trình tự của từng gene một trong bộ gene của một sinh nào đó
khái niệm trình tự hiểu là điểm đầu, điểm cuối, chiều dài một gene chứ kô phải là từng vị trí nu của gene. Như vậy cho một đọan chuỗi DNA, người ta dự đóan coi trong cái chuỗi DNA này có chứa một gene nào kô.


điểm nối GC-AG, (2) phép phân bố độ dài intron và (3) kết quả sắp xếp genome C. elegants với C. briggsae.) là những khái niệm phải học của người làm genomics, để giải thích nó, cần thời gian, tôi sẽ cố gắng, nhưng kô hứa trước.

vietbio said:
Bác check lại xem cái bọn này nó PCR để kiểm định ORF trên genome hay trên cDNA libary
Bằng chứng cho sự hiện diện 1 gene phải là EST hoặc cDNA, vậy việc kiểm tra phải làm là cDNA.

định danh và chỉ định (hay dự đóan) mang 2 sắc thái ý nghĩa hòan tòan khác:

- định danh: một người đưa bạn 1 trình tự mà họ thu được nhờ bạn xem coi nó là gene gì, bằng công cụ BLAST hay gì gì đó, bạn sẽ biết nó thuộc họ hay nhóm gene nào, và gần như 100% bạn sẽ gọi chính xác tên nó nếu đã có 1 gene giống nó có trên cơ sở dữ liệu. Và gene hiện diện sẵn này phần lớn là được đọc trình tự từ genome qua thực nghiệm giải trình tự.

- chỉ định hay dự đóan: khi mà trên cơ sở dữ liệu chưa hề có gene này. Khi đó người ta dự đóan hay chỉ định cho nó 1 cái tên mà người ước tính từ chức năng của nó thông qua các suy luận logic.

Thế nên phép dự đóan hay chỉ định luôn mang lại sai sót. Ngược lại định danh là chính xác.

bài fulltext sẽ được gửi sau.

Thanks
 
cái annotation mà bác muốn nói theo tôi hiểu gồm 2 giai đoạn:

1. predict ORF mà bằng các search engine và thuật toán nhất định

2. gắn nó với 1 cái tên (định danh), 1 chức năng và 1 quá trình chuyển hóa hoặc 1 hoạt động cụ thể của tế bào.

Nhân đây ko hiểu thằng TWINSCAN này đặt các thông số search như thế nào:

1. Mã mở đầu và mã kết thúc có thể những trường hợp nào
2. Chiều dài tối đa và tối thiểu của ORF
3. Intron pattern sai số bao nhiêu

4. Thực chất các ORF mới được tìm ra có overlap lên các ORF trước đã dự đoán ko?
5. Dùng comparative genome analysis chúng nó có chứng minh được các gene này đều hoạt động (phiên mã, dịch mã) ko?

Bác rỗi thì giải đáp giúm tôi nhé.
 
vietbio said:
cái annotation mà bác muốn nói theo tôi hiểu gồm 2 giai đoạn:

1. predict ORF mà bằng các search engine và thuật toán nhất định

2. gắn nó với 1 cái tên (định danh), 1 chức năng và 1 quá trình chuyển hóa hoặc 1 hoạt động cụ thể của tế bào.

Nhân đây ko hiểu thằng TWINSCAN này đặt các thông số search như thế nào:

1. Mã mở đầu và mã kết thúc có thể những trường hợp nào
2. Chiều dài tối đa và tối thiểu của ORF
3. Intron pattern sai số bao nhiêu

4. Thực chất các ORF mới được tìm ra có overlap lên các ORF trước đã dự đoán ko?
5. Dùng comparative genome analysis chúng nó có chứng minh được các gene này đều hoạt động (phiên mã, dịch mã) ko?

Bác rỗi thì giải đáp giúm tôi nhé.


01- Đúng vậy khái niệm annotation hiểu như vậy là tương đối, dịch nó là ghi chú-chỉ định sẽ chính xác hơn là phân lọai định danh. Như đã giải thích, nếu ai nói đi định danh 1 gene thì tui hình dung người này đọc một gene bằng pp giải trình tự, có trình tự rồi mà chẳng biết nó là gì, thì cái này gọi là định danh. còn ghi chú thì ông bà ta chỉ làm trên genome, ông bà nhìn 1 đọan DNA, chỉ phỏng đóan nó là gene chứ kô thể chắc chắn được.

02- chi tiết về Twinscan có trong bài, tui đã gửi fulltext cho dontcry

- mã mở đầu và kết thúc như trường hợp thông thường, xem Di truyền cơ bản
- chiều dài tối đa và tối thiểu OFR tôi kô nhớ
- intron pattern hay nói cách khác là chiều dài intron được xem xét và thống kê tạo thàng cái gọi là phân bố độ dài intron, nó na ná như phân bố Gause của thống ke cổ điển và nó trở thành công cụ hữu dụng trong phân tích genome và tiến hóa.


- trong bài này, người cho thấy ORF kô trùng với các ORF đã dự đóan trước đó nên họ nghi ngờ là MỚI.
- kô, khi so sánh genome kô thể nói 1 gene có họat động phiên mã hay kô. Nguyên lý: một gene (hay OFR) được coi là tồn tại khi có bằng chứng về EST hay cDNA của nó. Phản ứng PCR chỉ xác nhận sự hiện diện của ORF, chứ họat động của gene phải được xác lập qua cDNA và EST hoặc qua protein ...
 
khái niệm trình tự hiểu là điểm đầu, điểm cuối, chiều dài một gene chứ kô phải là từng vị trí nu của gene. Như vậy cho một đọan chuỗi DNA, người ta dự đóan coi trong cái chuỗi DNA này có chứa một gene nào kô.
Vậy nên viết là trật tự các gene, dùng từ trình tự chắc chắn người đọc sẽ nghĩ ngay đến trình tự nu.

Link các thuật ngữ cần chú thích đến Wiki.
Đúng rồi, một công đôi việc. Nếu anh giải nghĩa các thuật ngữ có thể làm trên Wiki trước, sau đó lúc em đăng tin sẽ link trực tiếp đến thuật ngữ đó. Okie

Những bài như của bác không chỉ nên viết đơn giản cho đại chúng (như là mục News hiện nay) mà cần có phần professional hơn để dân trong ngành làm TLTK chứ.
TLTK là cái khỉ gì vậy nhỉ :?:
Anh Hiếu nói đúng. Những bản tin đại chúng thì nhiều vô kể, em copy paste còn muốn hụt hơi. Cái cần thiết là những bài chuyên ngành. Em nghĩ nên cố gắng hướng vào chuyên môn.
 
nói trật tự gene bạn sẽ nhằm lẫn đến sự sắp xếp vị trí trước sau của các gene, kô dùng từ trật tự gene được. Nếu nói đến trật tự, sẽ dẫn sang lĩnh vự structural genomics- hệ gene cấu trúc, lúc đó mới nói đến trật tự gene.

Tui kô tìm ra từ khác được, vì đọc bản gốc nó là "the sequence of every gene", chữ sequence thì nghĩa đã là trình tự, tìm từ khác thì tui chưa nghĩ ra.

Trong bài viết này, kô thể dùng từ trật tự được.

TLTK = Tư liệu tham khảo
 
dontcry said:
khái niệm trình tự hiểu là điểm đầu, điểm cuối, chiều dài một gene chứ kô phải là từng vị trí nu của gene. Như vậy cho một đọan chuỗi DNA, người ta dự đóan coi trong cái chuỗi DNA này có chứa một gene nào kô.
Vậy nên viết là trật tự các gene, dùng từ trình tự chắc chắn người đọc sẽ nghĩ ngay đến trình tự nu.
Không phải là trật tự (order) đâu. Theo tôi phải gọi là vị trí gene, hay chính xác hơn là vị trí ORF. Vì nó tương đương với locus number và chỉ xác định vị trí điểm đầu và cuối như anh lonxon đã giải thích.


Link các thuật ngữ cần chú thích đến Wiki.
Đúng rồi, một công đôi việc. Nếu anh giải nghĩa các thuật ngữ có thể làm trên Wiki trước, sau đó lúc em đăng tin sẽ link trực tiếp đến thuật ngữ đó. Okie [/quote]

Mục từ HMM đã có rồi. Mời mọi ng chỉnh sửa http://vi.wikipedia.org/wiki/HMM

Những bài như của bác không chỉ nên viết đơn giản cho đại chúng (như là mục News hiện nay) mà cần có phần professional hơn để dân trong ngành làm TLTK chứ.
TLTK là cái khỉ gì vậy nhỉ :?:
Anh Hiếu nói đúng. Những bản tin đại chúng thì nhiều vô kể, em copy paste còn muốn hụt hơi. Cái cần thiết là những bài chuyên ngành. Em nghĩ nên cố gắng hướng vào chuyên môn.

TLTK="tài liệu tham khảo" mừ
Đây cũng nên là mục đích của News trên SHVN chứ. Phải hướng đến nguồn tin tức chuyên nghiệp. Chỉ tiếc là sức người có hạn không thể 1 hoặc vài người tham gia được. Nếu ai có khả năng thì mỗi ng 1 tay 1 chân thì tốt hơn.
 
Bình loạn:

Genomics là một hướng tiếp cận gene một cách tổng thể chứ không tập trung chú trọng một gene/protein, họ gene/protein, hay một con đường chuyển hóa nhất định. Bằng cách này những nhà nghiên cứu có thể sơ đồ hóa những hoạt động tiềm năng của một tế bào. Tuy nhiên, vấn đề này gặp trở ngại vì quá tải dữ liệu. Cái này thì BI phải góp 1 tay 1 chân rồi. Thứ 2, định hướng cho các nghiên cứu chuyên biệt và cụ thể tiếp theo.

Trong bài này, nhóm tác giả mô tả một hướng tiếp cận thiên về BI để giải quyết bài toán Chức năng hóa genome. Các genome đã được giải mã hoàn toàn hiện nay (đặc biệt là đối với các SV eukaryote) thì mật độ thông tin còn chưa được dày. Nghĩa là các vùng có chức năng trên genome chưa được xác định đầy đủ. Để làm được việc này trước tiên phải xác định được phạm vi đâu là vùng có nghĩa và đâu là vùng vô nghĩa (vùng mà ko có chức năng rõ ràng với những hiểu biết của khoa học hiện nay). Bài báo đã chỉ ra thêm hơn 1000 ORF nghĩa là đã mở rộng thêm vùng có nghĩa. Các việc tiếp theo là phải kiểm định chức năng thực tế của các ORF này.

Tại sao bài này được đăng trên Nature? Tôi cũng ko biết nữa. Nhưng mà mọi ng cần phân biết hiện nay Nature đã mở rộng thành Nature Publicing Group (NPG) nên Impact Factor của từng Journal trong đó là khác nhau. Không thể đánh đồng được.

Cải tiến mới: Bài này sử dụng Mô hình Markov ẩn (HMM) tìm ra xu hướng của các intron pattern. Đồng thời kết hợp với dữ liệu so sánh genome khác loài. (cái này mạnh hơn so với việc blast từng vùng đơn lẻ và hạn chế việc bỏ sót các đoạn có nghĩa do các đột biến điểm hoặc lỗi xác định trình tự).

Cái này chắc là tác giả bài dịch (anh Trần Hoàng Dũng) sẽ làm rõ thêm.
 
Tui có mấy ý

01- Bài này kô đăng trên Natura mà đăng trên Genome Research, Nature Rev Gene giới thiệu. Genome Research có chỉ số IF khá caao, khỏang 9.

02- Với dân trong nghề thì bài này hay chứ kô mới, nó có khả năng ứng dụng chứ kô mang lại lý thuyết hay bổ sung lý thuyết. Để dễ hiểu tui lấy ví dụ thế này:

Ta cần nuôi một chủng vi khuẩn A nào đó có những điều kiện cụ thể nhất định, sau 1 tuần ta thu được 10 g vi khuẩn từ 10 lít nuôi cấy.

Nếu thỏa mãn cái protocol này thì kô có gì để nói, nhưng đằng này một ông nào đó bảo là protocol nuôi cấy này kô hấp dẫn vỉ đủ thứ lý do, thế là ông ta loay hoay hiệu chỉnh thay đổi môi trường, thay đổi điều kiện ... kết quả là chỉ sau 7 ngày ông ta thu được 20 g /10 lít, thậm chí hơn chứ kô phải chỉ 10 g như protocol đầu.

Thì bài của Wei và cộng sự cũng mang sắc thái như vậy.

Nếu cách đây vài chục năm đến một trăm năm thì chuyện thay đổi điều kiện nuôi cấy VSV để thu lượng sinh khối lớn như vậy là một thành công đáng kể vì lúc này người ta chưa hiểu gì về sinh lý VSV, khi đó công trình nuôi cấy VSV thực sự là một bước tiến. Nhưng ngày nay, chuyện này chỉ dành cho SV năm 2 trường ... tui.

Lĩnh vực genome ở năm 2005 cũng giống lĩnh vực VSV 100 năm về trước, khi mà nền tảng về genome đang được xây dựng, thì công trình của Wei và cộng sự cũng giống như là những viên gạch viên đá đổ nền móng đáng được trân trọng, nhưng nó kô phải là thứ thiết yếu quyết định cả tòa nhà Genome sau này. Và chừng vài chục năm nữa, công trình của Wei chắc cũng chỉ để dành cho SV năm 1 trường ... con tui :D


Đúng là lĩnh vực tui đang học và làm là về Functional Genomics and Comaprative Genomics (dám nói tui là người đầu tiên ở VN học và làm vế vấn đề này đó nghen :D )như tui đã có dịch "bốc phét" mấy lần nhưng thực sự những lý thuyết về vấn đề này tui đang ... đổ nền, chưa thật vững. Phải đến tháng 8-9 sau khi giải xong cái plastome 120 kb, khi đó tui mới ngồi xuống và khổ sở thực sự với cái mớ dữ liệu thô này.

Sẵn tiện tui đang học lý thuyết thì tui có 1 đề nghị là tui sẽ viết (dĩ nhiên là version 1.0 thôi) một tập tài liệu về So sánh và phân tích genome từ lý thuyết đến các công cụ thực hiện, có mấy vấn đế:

01- tui sẽ rút lui kô làm bản News như đã hứa nữa, để tui chuyên tâm viết cái này

02- mỗi phần tui viết có thể xem như 1 bản tin nho nhỏ để SHVN đăng, sau khi hòan tất thì gom lại làm thành 1 tập bài viết bỏ túi.

Nếu đồng ý thì cho ý kiến.
 
Sẵn tiện tui đang học lý thuyết thì tui có 1 đề nghị là tui sẽ viết (dĩ nhiên là version 1.0 thôi) một tập tài liệu về So sánh và phân tích genome từ lý thuyết đến các công cụ thực hiện, có mấy vấn đế:

01- tui sẽ rút lui kô làm bản News như đã hứa nữa, để tui chuyên tâm viết cái này

02- mỗi phần tui viết có thể xem như 1 bản tin nho nhỏ để SHVN đăng, sau khi hòan tất thì gom lại làm thành 1 tập bài viết bỏ túi.
Anh cứ tự quyết đi, cái gì phù hợp với anh thì anh làm. SHVN là thứ yếu, quan trọng hơn là công việc offline của anh.
 
lonxon said:
Đúng là lĩnh vực tui đang học và làm là về Functional Genomics and Comaprative Genomics (dám nói tui là người đầu tiên ở VN học và làm vế vấn đề này đó nghen :D )như tui đã có dịch "bốc phét" mấy lần nhưng thực sự những lý thuyết về vấn đề này tui đang ... đổ nền, chưa thật vững. Phải đến tháng 8-9 sau khi giải xong cái plastome 120 kb, khi đó tui mới ngồi xuống và khổ sở thực sự với cái mớ dữ liệu thô này.

Tôi cũng đã thử sơ qua cái Comparative Genome analysis nhưng ko so sánh 2 loài khá gần như bác. Tôi so sánh NST của lúa nước (rice) và lúa mạch (barley). Nhân đây cũng ko biết bác có đề xuất gì với cái thuật ngữ mà bác "tiên phong" ko? Nếu dùng là pp phân tích so sánh genome thì ko bao hàm đủ ý vì nó = "genome comparison analysis" ???
 
Sắc thái của từ so sánh COMPARATIVE rất rộng, cả trong tiếng Việt lẫn tiếng Anh, Trong bài này, thật ra tui dịch luớt cụm từ aligment, nghĩa từ này là sắp xếp hai đoạn DNA hay Protein sao cho chúng thẳng hàng, từ kết đó bằng mắt thường có thể thấy chúng khác nhau ở ở một vài hay nhiều điểm NU hay Protein. Do đó trong bài viết, nếu dịch là sắp xếp thẳng hàng thì cũng được mà dịch là phân tích so sanh cũng kô sai. Tui có nghe 1 người dịch từ aligment là GIÓNG, tui thấy từ này "bình dân" quá nên kô xài.

ok, có lẽ tui sẽ dùng từ sắp xếp thẳng hàng = aligment cho các bài viết về sau.
 
đúng vậy, CGA có mục đích đơn giản là tìm các clustal of DNA (gene, EST,marker) phân bố đồng tuyến tính ở các genome khác loài. Từ "aligment" nếu ko muốn bình dân thì nên dịch là "so sánh bắt cặp" hoặc ngắn gọn là "bắt cặp"

Tôi cũng đã phát triển phần so sánh trình tự (sequence aligment) trên Wiki.
 

Facebook

Thống kê diễn đàn

Threads
11,649
Messages
71,550
Members
56,918
Latest member
sv368net
Back
Top