Bất đối xứng trong biểu hiện genes

pththao

Senior Member
Xin hỏi mọi người tại sao khi vẽ histogram của gene expression của một tế bào đường cong có vẻ luôn bất đối xứng, nặng về phía thấp và có tail về phía cao. Hình dạng bất đối xứng đó có giải thích sinh học hay không? (hiện tượng có tail về phía cao có thể hiểu được do các giá trị nghi vấn, dụng cụ đo không có thang đo âm nhưng có thang đo dương lớn, tuy nhiên tính bất đối xứng của gene expression, theo mình quan sát, thể hiện ngay ở vùng trung tâm thay vì chỉ ở tail.)
 
Hình như mình chưa hiểu được câu hỏi. Có phải bạn đang đề cập sự phân bố của gene expression dùng để chuẩn hóa dữ liệu trong DNA microarray không?
 
Mình lại chưa hiểu chính xác ý bạn nói lắm, nhưng chắc đúng thế. Cụ thể là có một gene expression profile của một tế bào, mình vẽ histogram của nó, ví dụ như file đính kèm. Trục hoành là mức biểu hiện gene (sau chuẩn hóa về tâm), trục tung là số lượng gene ứng với mỗi khoảng của giá trị. Mình nhìn thì thấy nó hơi nghiêng về bên trái (phía giá trị thấp.) Cái này xảy ra với tất cả dữ liệu mình có trong tay.
Điều đó có nghĩa nó không có phân phối chuẩn, do đó không thể là kết quả của thăng giáng ngẫu nhiên.
 

Attachments

  • expr.pdf
    3.6 KB · Views: 443
Quan sát của bạn có đồng nghĩa với nhận định này không:
"The histogram data can be fitted by the nonsymmetrical probability distribution function (pdf) or by the combination of symmetrical and/or nonsymmetrical pdfs."
 
Ah, ý mình gần chính xác với vế đầu,
"The histogram data can be fitted by the nonsymmetrical probability distribution function (pdf),"
vế sau thì mình không hiểu "combination" ý là gì. Chỉ có thêm bổ sung là nonsymetric luôn lệch về phía âm (chắc tác giả này cũng ngụ ý điều đó mà không nói rõ.)
Câu hỏi của mình là có lý do sinh học nào mình dùng nonsymmetrical pdf để fit, hay chỉ là do "mắt nhìn thấy thế" thì ta làm thế.
 
Khi đề cập đến hình dạng của cái histogram này thì thầy giáo mình chỉ nói là: "Technology used in measurement probably affects the exact shape", nhưng cũng không thấy kết luận gì về lý do sinh học của điều này.
 
Ờ, cái đó chắc chắn rồi, vì là in vitro mà. Cái đuôi rất nhỏ về phía dương khả năng cao là do lý do kỹ thuật: cường độ sáng đo vô hạn về phía dương nhưng không đo được các giá trị âm. Vì thế các giá trị này đặt vào giá trị nghi vấn!
Tuy nhiên như mình nói ở bài đầu tiên, cái asymmetry xảy ra ngay khá gần đỉnh, nếu nó thuần túy là vấn đề đo đạc thì mức độ tin cậy của phép đo mình cho là rất thấp!
 
Tuy nhiên như mình nói ở bài đầu tiên, cái asymmetry xảy ra ngay khá gần đỉnh, nếu nó thuần túy là vấn đề đo đạc thì mức độ tin cậy của phép đo mình cho là rất thấp!
Mình không hiểu tại sao lại có thể từ cái asymmetry lại có thể suy ra mức độ tin cậy của phép đo, bạn có thể giải thích đơn giản thêm một chút được không?
 
À, có thể bạn hiểu sai ý mình thôi, ý đơn giản mà. Giả sử gene expression có phân bố chuẩn, đối xứng (về mặt lý thuyết), mà đo đạc ra phân bố không đối xứng. Ở xa sẽ có ít giá trị (các sự kiện hiếm) có thể xảy ra không đối xứng, nhưng ở gần tâm tức là có rất nhiều giá trị đo có ý nghĩa mà cũng thể hiện hiệu ứng vốn dĩ không có thì độ tin cậy là kém.
Ví dụ thế này cho đơn giản: Chẳng hạn mình đo độ dài một cái bàn thực ra dài 1 m bằng một cái thước rất tệ, giá trị đo được dao động theo lý thuyết là phân bố chuẩn quanh giá trị chính xác 1 m. Vì mình thao tác quá dở, đo không ra đối xứng mà hơi nghiêng về một phía, điều đó thấy rõ là mình thao tác tệ, hoặc dụng cụ quá tệ.
Ví dụ trên minh họa cả cái long tail mà mình nói đến ở trên, có thể xảy ra mình đo cái bàn được 20 m hoặc 100 m (dù hiếm) nhưng không thể về nguyên tắc đo được -1m. Vì vậy ở xa tâm, phân bố cho phép là đối xứng (dù sao cũng không đáng kể.)
Tất nhiên mình không có kinh nghiệm gì đánh giá phép đo bằng CHIP là tốt hay không (phải nói là chưa nhìn thấy hình dạng nó thế nào), có thể mức độ tin cậy của nó chỉ đạt đến rất gần xung quanh đỉnh, và bất đối xứng hoàn toàn do cách đo bằng CHIP, không hơn được.
Cuối cùng, vì genome có tổ chức nên mình mong đợi là pdf không đối xứng (phân bố chuẩn thể hiện ngẫu nhiên thống kê về sai số, không correlated.) Có điều mình không biết nên lệch trái hay lệch phải và không hiểu là giải thích thế nào...
 
Gene expression có phải là ngẫu nhiên đâu mà phải tuân theo phân phối chuẩn nhỉ.
À, theo định lý giới hạn trung tâm thì không nhất thiết là hoàn toàn ngẫu nhiên mới có phân phối chuẩn. Gene expression nếu có correlation yếu đến mức nào đó thì vẫn tuân theo định lý đó và có phân phối chuẩn. Trừ khi correlation là đủ mạnh thì phân bố trở nên khác nhiều.
 
Mình lại chưa hiểu chính xác ý bạn nói lắm, nhưng chắc đúng thế. Cụ thể là có một gene expression profile của một tế bào, mình vẽ histogram của nó, ví dụ như file đính kèm. Trục hoành là mức biểu hiện gene (sau chuẩn hóa về tâm), trục tung là số lượng gene ứng với mỗi khoảng của giá trị. Mình nhìn thì thấy nó hơi nghiêng về bên trái (phía giá trị thấp.) Cái này xảy ra với tất cả dữ liệu mình có trong tay.
Điều đó có nghĩa nó không có phân phối chuẩn, do đó không thể là kết quả của thăng giáng ngẫu nhiên.

bạn có thể vẽ thêm 1 số tế bào khác 1) ở các giai đoạn phát triển tối ưu, và 2) đang chịu áp chế ở 1 vài ngưỡng khác nhau, 3) dạng tế bào gần như nghỉ (sinh trưởng tối thiểu) và so sánh với histogram này để xem có thể có kết luận sinh học nào đó thú vị k.
 
Mình không có data đó. Tuy nhiên mình đã có kiểm tra với tế bào ung thư với mức độ phản ứng khác nhau với thuốc kích thích apoptosis. Tế bào phản ứng mạnh nhất với apoptosis có profile khác hẳn với các tế bào khác. Mới đầu mình dùng clustering để nhận dạng điều này và được khẳng định dưới nhiều dạng khác nhau. Vì vậy mình cho rằng đặc trưng đó phải nhận diện được ở dạng thô sơ hơn, histogram là ví dụ. Khi vẽ histogram thì bằng mắt thường mình thấy profile của tế bào đó có đỉnh nhọn hơn các tế bào khác, tức là bên phải "gầy" hơn một chút.
 
Mình không biết gì về bioinformatics nhưng như mình được học thì các dữ liệu thô của các thí nghiệm microarray có rất nhiều trong các cơ sở dữ liệu online (khoảng 350.000 microarray), mọi người có thể sử dụng nguồn dữ liệu này để phân tích với các mục đích khác nhau.
 
Ừ, mình biết có cơ sở dữ liệu online nhưng chưa biết download. Các thư viện đều nhiều thứ quá, mình chưa biết sử dụng cho thật hiệu quả.
 
Không cùng lớp bác ạ, nhưng chắc đều là dân toán lý lại đa mang "tò mò" thêm sinh học nữa nên mới có cơ hội gặp nhau ở đây...
 

Facebook

Thống kê diễn đàn

Threads
11,649
Messages
71,548
Members
56,917
Latest member
sv368net
Back
Top