Microarrays

pththao

Senior Member
Mình tìm bài viết của bác Cao Xuân Hiếu về SNP để tìm hiểu về SNP array nhưng không thấy. Vậy nhân tiện mở topic này về array nói chung, có lẽ có ích cho nhiều người, nhất là người mới bắt đầu như mình. Xin bắt đầu hỏi đầu tiên, bác nào biết nhờ chỉ giúp...

Về DNA array nói chung, trước đây mình có tìm hiểu trong phép đo nồng độ mRNA. Trong đó, nồng độ mRNA đơn giản tính thông qua mật độ sa lắng của RNA lên một vị trí nhất định trên array (thông qua chụp ảnh huỳnh quang...)

Nếu vẫn giữ nguyên lý đó mình không hiểu làm thế nào để nhận diện các SNP, vì các SNP chỉ khác nhau một nucleotide tại một vị trí nhất định?
Hơn nữa mình được biết SNP array nhận diện được copynumber của gene (trong khi đó với phép đo mRNA chỉ nhận biết nông độ, muốn nhận biết copy number SNP sẽ phải nhạy đến mức nhận được từng phân tử một?) !
(Trên wiki về principle chỉ nói đơn giản là tương tự như DNA array và liệt kê các thành phần...)
 
Nếu vẫn giữ nguyên lý đó mình không hiểu làm thế nào để nhận diện các SNP, vì các SNP chỉ khác nhau một nucleotide tại một vị trí nhất định?
Người ta áp dụng nhiều nguyên lý để xác định SNP, trong đó có một nguyên lý giống với gene expression microarray, đó là nguyên lý lai (hybridization). Điều khác biệt ở chỗ, khi áp dụng nguyên lý này để xác định SNP thì người ta bắt buộc phải dùng một bộ gồm hai probe cho một vị trí chứa SNP đã biết trước (thông thường một vị trí SNP có hai allele, ví dụ T và C, hay T và A,...). Mỗi probe có trình tự hoàn toàn tương ứng với một allele, và sẽ có một nucleotide không tương ứng với allele còn lại. Nucleotide không tương ứng này được thiết kế nằm vào khoảng giữa của trình tự probe, nhờ đó mà ái lực của probe với allele tương ứng lớn hơn rất nhiều so với ái lực của probe với allele không tương ứng. Điều này sẽ quết định cường độ mạnh yếu của tín hiệu huỳnh quang tại probe tương ứng với các allele. Thống kê về cường độ tín hiệu huỳnh quang tại các probe sẽ cho kết quả về SNP. Để dễ hình dung, có thể lấy ví dụ một cách tương đối chính xác là: tại một SNP có 2 allele T và C, thì sẽ dùng hai probe tương ứng là probe T và probe C. Nếu tín hiệu chủ yếu tại T thì kiểu gen SNP là TT, nếu chủ yếu tại C thì kiểu gen SNP là CC, còn nếu bằng nhau thì kiểu gen SNP là CT.
Trên đây mới chỉ đề cập đến nguyên lý lai, dùng trong hệ thống của Affimetrix. Ngoài ra, người ta còn dùng đến nguyên lý single-base extension (Illumina) và nguyên lý ligation (Anxiom, Affimerix) để tiến hành SNP microarray nữa.
Hơn nữa mình được biết SNP array nhận diện được copynumber của gene (trong khi đó với phép đo mRNA chỉ nhận biết nông độ, muốn nhận biết copy number SNP sẽ phải nhạy đến mức nhận được từng phân tử một?) !
Điều này được thực hiện bằng việc so sánh cường độ tín hiệu của các vị trí SNP khác nhau trên toàn bộ genome, nếu cường độ tín hiệu tăng hay giảm cục bộ tại một vị trí nhất định so với toàn bộ genome thì kết luận tăng hay giảm copy number của gene (duplication, depletion). Nếu copy number của gene mà tăng đồng loạt ở toàn bộ genome, chẳng hạn đột biến đa bội, thì sẽ không phát hiện được bằng phương pháp này.
 
Điều này được thực hiện bằng việc so sánh cường độ tín hiệu của các vị trí SNP khác nhau trên toàn bộ genome, nếu cường độ tín hiệu tăng hay giảm cục bộ tại một vị trí nhất định so với toàn bộ genome thì kết luận tăng hay giảm copy number của gene (duplication, depletion). Nếu copy number của gene mà tăng đồng loạt ở toàn bộ genome, chẳng hạn đột biến đa bội, thì sẽ không phát hiện được bằng phương pháp này.

Great, cảm ơn Thọ, khá rõ ràng rồi. Mình hỏi thêm chút.
Trong RMA microarray thông thường mình làm việc với probes, thay vì với các gene thực sự. Lý do bởi vì một gene thường có vài probe với nó. (Hơn nữa còn có probe tương ứng với hai ký hiệu genes, mình chưa có thời gian kiểm tra chính xác hai ký hiệu đó có ký hiệu nào không chuẩn không, có thể xảy ra điều này không?!) Việc chế tạo một vài probes cho cùng một gene phải chăng chỉ là để nâng cao độ chính xác khi bố trí probe tại các vị trí khác nhau trên chip? Nếu như vậy việc lấy trung bình các probe cần phải được thực hiện, tuy nhiên trong đa số trường hợp mình không thấy ai làm thế cả?
 
...Hơn nữa còn có probe tương ứng với hai ký hiệu genes, mình chưa có thời gian kiểm tra chính xác hai ký hiệu đó có ký hiệu nào không chuẩn không, có thể xảy ra điều này không?!
Mình không biết trường hợp mà bạn đề cập đến có phải là sai sót trong thiết kế probe hay không. Nếu đúng vậy thì điều này có thể xảy ra nhất là các chip được thiết kế trước đây sẽ có nhiều sai sót hơn. Những probe này sẽ không đặc hiệu, có thể gắn được với hai hay nhiều gen, do đó dữ liệu thu được từ probe này cần được loại bỏ ở bước QC (quality check) trước khi bắt tay vào việc phân tích chính thức.

Việc chế tạo một vài probes cho cùng một gene phải chăng chỉ là để nâng cao độ chính xác khi bố trí probe tại các vị trí khác nhau trên chip? Nếu như vậy việc lấy trung bình các probe cần phải được thực hiện, tuy nhiên trong đa số trường hợp mình không thấy ai làm thế cả?
Gene expression microarray của Illumina và Agilent chỉ sử dụng một probe tương ứng với vùng ở đầu 3' của gen. Chỉ có microarray của Affymetrix mới dùng đến một probe set gồm nhiều probe tương ứng với các vị trí khác nhau của gen. Mình cũng nghĩ giống bạn là việc bố trí các probe tại các vị trí khác nhau sẽ nâng cao độ chính xác, vì tín hiệu thu được tại từng probe trong một số trường hợp có thể bị ảnh hưởng bởi vị trí của probe. Chẳng hạn, trong 10 probe mà có 8 probe cho cùng một kết luận , 2 probe cho kết luận khác hoặc không đảm bảo chất lượng thì vẫn có thể rút ra được kết luận về gen đó.
Mình không biết việc lấy trung bình các probe có ý nghĩa như thế nào và có nên thực hiện hay không, nhưng như mình biết thì về nguyên tắc thì các probe càng xa đầu 3' thì có tín hiệu càng yếu.
 
Nếu vẫn giữ nguyên lý đó mình không hiểu làm thế nào để nhận diện các SNP, vì các SNP chỉ khác nhau một nucleotide tại một vị trí nhất định?
Hơn nữa mình được biết SNP array nhận diện được copynumber của gene (trong khi đó với phép đo mRNA chỉ nhận biết nông độ, muốn nhận biết copy number SNP sẽ phải nhạy đến mức nhận được từng phân tử một?) !
(Trên wiki về principle chỉ nói đơn giản là tương tự như DNA array và liệt kê các thành phần...)

Theo tôi hiểu thì để xác định copy number variation (CNV) thì mình phải xay dựng đường chuẩn cho lượng DNA genome đầu vào (ví dụ xác định ~ bao nhiêu lần genome) sau đó xác định tương đối số copy khi so với các gene đã biết trước số bản copy không đổi trên genome.

Illumina có công nghệ VeraCode và GoldenGate khá hấp dẫn cho những người làm SNP genotyping.
 
Cảm ơn mọi người. Mình đang kiếm package để xử lý số liệu của affy snp. Chưa kiếm được cái nào như ý, hi vọng nay mai tìm được để bắt tay vào việc. (dchip dùng cho windows và tương tác đồ họa là chính nên không phù hợp lắm) Nếu có recommend nào mình xin ghi nhận :D

Về vấn đề một probe có vài gene có hai trường hợp, có thể ID của gene là không chuẩn, chẳng hạn PKB và ATK1, bỏ qua trường hợp này (vừa check xong.) Tuy nhiên cộng tổng số probes tương ứng với mỗi gene lại vẫn khác với tổng số probes! Cái này phải check dần thêm và báo cáo lại với bạn.

Về vấn đề nhiều probes cho một gene, xem ra Thọ khó tính quá, làm thế thì còn gì nữa mà xử lý :)) Hơn nữa quá trình chuẩn hóa (chẳng hạn bằng rma()) thực hiện ở mức probe sẽ làm cho chúng khác nhau tương đối! Nếu có 10 probes tớ mà xử lý thì cộng lại lấy mean, tính standard deviation std, nếu std/means không vượt ngưỡng nào đó (mình có thể điều khiển) thì giữ, không thì loại. Dù sao hiện giờ mình vẫn chưa thử để xem chất lượng data thế nào. Cứ dùng đã rồi... tính sau.
 
Về Chromosome locations: Sau khi map probes lên vị trí của nó trên genome (loại bỏ tất cả các chromosome nghi vấn và hoàn toàn không có thông tin về trị trí (cho tạm vào chromosome 24!) mình thấy như sau:
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [,11] [,12] [,13] [,14]
[1,] 2168 1466 1180 748 954 1004 942 692 738 798 1074 1092 392 636
[2,] 533 357 294 191 226 232 243 190 198 193 256 288 115 166
[,15] [,16] [,17] [,18] [,19] [,20] [,21] [,22] [,23]
[1,] 636 684 924 334 982 634 188 510 10
[2,] 162 178 244 80 258 154 47 110 3
Cột đánh số theo tên Chromosome. Hàng một: tổng số probe trên chromosome; Hàng hai: tổng số probe antisense.
Xin hỏi các probe antisense có tác dụng gì khác không? Phân tích số liệu có nên loại bỏ antisense probe (mình được biết không có translation cho chúng?)
 
Trong cả hai. Vì mình map SNP vào expression nên cuối cùng nó như nhau cả (còn phải check ký hiệu probe của SNP và EXPR có tương thích với nhau nữa, nhưng mọi người trước đây đều làm thế :D).
Each manufacturer identifier maps to a named vector of chromosomal locations, where the name indicates the chromosome. Due to inconsistencies that may exist at the time the object was built, these vectors may contain more than one chromosome and/or location. If the chromosomal location is unknown, the vector will contain an NA.
Chromosomal locations on both the sense and antisense strands are measured as the number of base pairs from the p (5’ end of the sense strand) to q (3’ end of the sense strand) arms. Chromosomal locations on the antisense strand have a leading "-" sign (e. g. -1234567).
(from hgu133a.db manual)
 
Trong cả hai. Vì mình map SNP vào expression nên cuối cùng nó như nhau cả (còn phải check ký hiệu probe của SNP và EXPR có tương thích với nhau nữa, nhưng mọi người trước đây đều làm thế :D).

(from hgu133a.db manual)
Theo như phần in đậm thì có phải là bạn chỉ quan tâm đến SNP trong coding sequences và không quan tâm đến SNP ở vùng non-coding sequences phải không? (hoặc là mình chẳng hiểu gì...:roll:)
 
Hehe, mình viết khó hiểu thế cơ à. Mà hiểu thế cũng gần đúng, tuy nhiên mRNA có cả probe cho none-coding, sense và antisense mà.

Cụ thể thế này: Mình có dữ liệu expression và SNP của cùng một line. Tuy nhiên hai chip là khác nhau, có cái có gene này, có cái không có. Giờ mình muốn khảo sát xem ảnh hưởng qua lại của SNP và EXPR thế nào, nên mình phải lọc ra những probes có mặt trong cả hai (có cả coding và non-coding.) (map chúng vào nhau.)
Giờ mình đặt các probes đó vào nhiễm sắc thể, vị trí của chúng trên đó để xem ảnh hưởng của vị trí không gian tác dụng thế nào (như câu hỏi hôm trước mình đặt ra ở mục khác.), gọi là map vào chromosome. Khi làm thế thì mình gặp khái niệm sense và antisense probes như nói ở trên. Quẳng hẳn cái antisense đi thì xem ra phí quá, nên mình hỏi xem có thể khai thác được gì ở đó không, và làm thế nào :D
 
Do người đọc chậm hiểu, chứ không phải bạn viết khó hiểu. Cảm ơn Thao đã giải thích rõ. Mình nghĩ các probe antisense chỉ dùng để quality control thôi.
Cũng theo mình nghĩ... thì các SNP ảnh hưởng tới EXPR, chứ làm gì có EXPR ảnh hưởng đến SNP nhỉ?
 
Do người đọc chậm hiểu, chứ không phải bạn viết khó hiểu. Cảm ơn Thao đã giải thích rõ. Mình nghĩ các probe antisense chỉ dùng để quality control thôi.
Cũng theo mình nghĩ... thì các SNP ảnh hưởng tới EXPR, chứ làm gì có EXPR ảnh hưởng đến SNP nhỉ?

Aha, cái này là chỗ hay mà!!! Thông thường là mọi người đều nghĩ thế! Nhưng chưa chắc, expr đặc trưng cho trạng thái hóa học tế bào ở mức độ nhất định, như vậy rõ ràng ảnh hưởng đến mitosis, nói riêng ảnh hưởng đến phân ly của nhiễm sắc thể, do đó sinh ra sai sót trong chromosome và ảnh hưởng đến copy number thay đổi qua các thế hệ. Giờ theo mình biết vẫn chưa rõ cái nào quyết định cái nào! Nội dung tranh cãi là : Chromosomal instabilities (qua copy number) hay oncogene là nguyên nhân của Cancer.
Theo quan điểm khai thác thông tin và số liệu, mọi giả thiết có thể xảy ra nên mình phải dùng từ "ảnh hưởng lẫn nhau," trừ khi có lý do hiển nhiên và xác thực thì mới nói cái này ảnh hưởng cái kia (chỉ khi xây dựng được mô hình, thì giới hạn trong mô hình đó mới có thể phát biểu như vậy.) :D
PS: tạm thời tớ quẳng antisense đi rồi, tổng cộng số probes giảm năm lần. Để tuần sau mình thử hỏi kỹ một ông chuyên gia ở đây xem sao. Có người dạy thì nhanh hơn là ngồi mò mẫm, nhỉ.
Thanks.
 
Cứ tự mò mẫm trước rồi sẽ học hỏi được nhiều hơn từ các ông thầy...:socool:
Đã hiểu thêm đôi chút về ý tưởng của Thao, nhưng dữ liệu SNP mà bạn khảo sát ở đây là cả dữ liệu về identity của SNP, hay chỉ là thay đổi về copy number thôi?
Chúc Thao may mắn!
 
Cứ tự mò mẫm trước rồi sẽ học hỏi được nhiều hơn từ các ông thầy...:socool:
Đã hiểu thêm đôi chút về ý tưởng của Thao, nhưng dữ liệu SNP mà bạn khảo sát ở đây là cả dữ liệu về identity của SNP, hay chỉ là thay đổi về copy number thôi?
Chúc Thao may mắn!

Cảm ơn Thọ. Dữ liệu đó hiện giờ mình chỉ quan tâm đến copy number, nhưng mình nghĩ nếu cần có thể phân tích identity (đúng nhỉ?) Việc khai thác dữ liệu đã được làm khá nhiều rồi, nhưng mô hình mình chưa thấy có cái nào, hoặc mình không biết. Hiện giờ mình cũng chỉ data processing cho biết thực chất của số liệu thế nào thôi, chưa có gì đặc biệt hơn...
Tên mình có dấu là Thảo :D
 
Cứ tự mò mẫm trước rồi sẽ học hỏi được nhiều hơn từ các ông thầy...:socool

Quên mất, báo cáo với Thọ mình đã hỏi người làm việc cùng tuần trước và được trả lời là: mình không cần phải làm những cái đó vì có người làm rồi :))
 

Facebook

Thống kê diễn đàn

Threads
12,995
Messages
72,869
Members
45,065
Latest member
Go88aa
Back
Top