What's new

Next Generation Sequencing- Một số thuật ngữ cần giúp đỡ

atgc

New member
#1
Hiện nay việc giải trình tự toàn bộ genome của vi sinh vật được tiến hành (dịch vụ) chỉ mất một tháng. Với các hệ thống giải tình tự mới như của Illumina Solena, SolID,... thì công việc giải trình tự rút ngắn rất nhiều thời gian.

Một số dịch vụ giải trình tự có option mà mình chưa hiểu mong các bạn giải thích giùm:

Type of sequence run:
+ Single Read (SR)
+ Paired end (PE)
+ Mate-pair (MP)
Length of sequence run: 36bp, 50bp, 75bp
Và họ trả kết quả
Paired-end read 50 cycle 300 MB
là như thế nào?
Các bạn có thể giải thích các thuật ngữ này giùm mình nha, cám ơn nhiều.
 

Cao Xuân Hiếu

Administrator
Bình thường order NGS sequencing nghĩa chính là option Single Read (SR). Nhưng vì kết quả sẽ cho ra 1 đống (vài GB đến TB) những đoạn nhỏ khó có khả năng assembly. Nói chung chọn option với sequence length càng dài thì càng tốt và cũng càng đắt. Thế nên nếu order thêm option Paired end (PE) + Mate-pair (MP) là để hỗ trợ việc này (tùy thuộc là bạn resequencing hay de novo sequencing). Quan trọng là cần tính kích thước genome là bao nhiêu, sau khi chạy sẽ được bao nhiêu lần coverage.
 

atgc

New member
Cám ơn anh, trong trường hợp mình có một chủng vi khuẩn kháng thuốc (trên thực nghiệm đã làm phổ kháng sinh) và mình muốn giải trình tự genome nó (Mặc dù genome nó đã được giải trình tự nhiều trên thế giới). Genome mình khoảng 4,5 Mb và mình định chạy công nghệ của Illumina.

Trong trường hợp này là de novo hay resequencing vậy anh Hiếu, và theo anh thì các tùy chọn ở trên đâu là thích hợp nhất trong trường hợp này. Mình làm bên y khoa nên cũng không rành vấn đề này mong anh giúp đỡ.

Và cho em hỏi High Coverage Genomes là gì vậy?

Thân chào,
 

Cao Xuân Hiếu

Administrator
Nếu người ta đã có reference sequence sẵn rồi, mình muốn đọc để xác định các điểm mutation/ polymorphism thôi thì đấy là resequencing. Trường hợp này thì có lẽ ko cần đến option số 2 và 3. Nên chọn Illumina cho nó rẻ. Nên tính toán là mình chạy bao nhiêu run và sẽ được bao nhiêu MB?

Giả sử genome quan tâm là 1 MB và mình định đọc 30 MB như vậy là trình tự mình đã cover 30 lần genome rồi. Thông thường các nhiều lần cover càng tốt. Tôi thấy ngta thường hay chọn 25x genome bạn cần phải tính toán và cân đối với giá tiền.
 

atgc

New member
Cám ơn anh đã reply nhanh chóng,

Em định gửi mẫu cho BaseClear (một cty của Hà Lan), sử dụng công nghệ của Illumina. Dưới đây là service của nó:

PROKARYOTIC GENOME SEQUENCING

De Novo or re-sequencing of prokaryote genomes can be expensive. BaseClear now offers a cost efficient service, based on paired-end sequencing on the Illumina GAIIx platform. Simply submit 20 ug of purified genomic DNA, and you will receive a minimum of 300 MB of high quality sequencing data in 50-cycle paired-end reads for only €1100,-!
An average bacterial genome size is 4 MB, which means you will have a coverage of ~70X, in most cases this is sufficient to give approximately 95% coverage for most bacterial genomes.
Prokaryote genome sequencing in short:

  • Library preparation for sequencing is included in this offer
  • You submit: At least 20 ug of purified genomic DNA (min. conc. 200 ng/uL)
  • You receive: A minimum of 300 MB of DNA sequencing data in 50 cycle paired-end reads
  • You will receive the raw sequence data in FASTQ format.
Em định giải trình tự con lao kháng thuốc (đã làm thực nghiệm) để lấy số liệu và bắt đầu học về phân tích trình tự tuy nhiên vì là BS nên kiến thức còn hạn chế trong lĩnh vực này.

Trong trường hợp em genome là 4,4 M base thì khi điền orderform nên chọn "Type of Sequence Run" là gì? và nên chọn "length of sequence run" là bao nhiêu " 36 - 50 - 75 bp" (Cái này có ý nghĩa như thế nào vậy a?)

Em có đính kèm cái order form nhờ anh xem qua.

BaseClear gửi kết quả là "A minimum of 300 MB of DNA sequencing data in 50 cycle paired-end reads" là như thế nào hả anh?


Thân chào
 

Attachments

Cao Xuân Hiếu

Administrator
Em làm ở đâu ở HL? Trước anh cũng làm ở VU nên cũng hay order của bọn BaseClear làm Sanger sequencing. Dịch vụ khá tốt. Nó chạy Illumina con GAIIx platform thì ko ngon lắm, con ngon phải là HiSeq2000 nhưng cũng đủ tốt với prokaryote genome.

Khi order chọn Type of sequence run là Single read (SR)

Length of seq. run là 75bp (tốt hơn) hoặc 50bp => kiểm tra lại giá để chọn xem tổng số bao nhiêu runs mình cần order.

"A minimum of 300 MB of DNA sequencing data in 50 cycle paired-end reads"
Nghĩa là nếu em order 50 runs (cycle) của pair-end reads (hoặc trường hợp single read) thì sẽ được tối thiểu là 300 MB trình tự. Đây là những đoạn trình tự có chiều dài 50bp hoặc 75 bp tùy mình chọn ở trên và tổng lượng nucleotide đọc là 300MB nghĩa là 68x coverage trong genome của vi khuẩn em gửi họ.

Khi order nên ghi rõ trình tự reference (tên vi khuẩn) và yêu cầu họ làm alignment hộ cho. Nên lưu ý là để phân tích trình tự từ NGS ko đơn giản đâu, phải có phần mềm chuyên dụng và bọn BaseClear nó chỉ gửi cho em 1 đống seq chưa assemble với kích thước khoảng 75bp mỗi đoạn (cực kỳ ngắn). Nói chung nên có dân chuyên nghiệp ngồi ở đó hướng dẫn.

Nên đọc thêm tại đây

http://batzerlab.lsu.edu/genomics/genomics_services_Illumina-GAIIx.html
 

atgc

New member
Cám ơn anh,
Em đang được phân công học assembly genome và một số kỹ thuật khác về trình tự genome... Sau khi BaseClear giải trình tự và send về 1 DVD thì em sẽ dùng nó để học cách phân tích, nghiên cứu trên "đống" trình tự đó.

Em là BSi nên còn gà kinh, tuy nhiên khá đam mê tin học nên cố tâm học thử, nhưng mọi thứ còn mù mờ quá.

Nếu như em có các DVD fastq format của cái genome con Lao đó, em sẽ làm gì tiếp theo, anh có thể gợi ý cho em được không?

Chúc anh cuối tuần vui vẻ,
 

Facebook

Top