What's new

Bio-statistics

Joined
Feb 5, 2009
Messages
45
#1
Hic hic, đăng kí mãi mới được vào diễn đàn. Chả hiểu sao cái 4r sinh học này nó lại hiu hắt thế nè. Tôi có post này cũng chẳng biết post vào đâu, cho tạm vào đây các anh chị admin thấy ngứa mắt thì chuyển qua chỗ khác cho tôi thì tôi cám ơn nhé. Vấn đề tôi post lên muốn thảo luận như sau.

1, When do we use Spearman test (a non-parametric test) instead of linear test (a parametric test) to test for statistical correlations?
2, Is it ok if I use linear test for my dataset without having ensured that it had a normal distribution?

Ai thảo luận làm ơn viết bằng tiếng Anh hoặc nếu tiếng Việt thì (thuật ngữ Anh ngữ) để khỏi hiểu lầm nhé.
Chú ý: Cấm ăn nói linh tinh và các hành vi thiếu tôn trọng trong topic này của tôi.(y) một phát.
 


Joined
Jan 17, 2009
Messages
6
#2
Spearman test is often used as an alternative for linear regression when the data are not normally distributed.
When you are not sure about the normal distribution of your data, it may still be okay to use the linear regression if you know well about your system. For example, you may know the biology or have previous experience with the system that your method of data collection at least satisfies the assumption of normal distribution.

Hy vọng bạn tìm thấy câu trả lời ở trên.

Hồ Minh Lân
 
Joined
Feb 5, 2009
Messages
45
#3
When you are not sure about the normal distribution of your data, it may still be okay to use the linear regression if you know well about your system. For example, you may know the biology or have previous experience with the system that your method of data collection at least satisfies the assumption of normal distribution.

Hy vọng bạn tìm thấy câu trả lời ở trên.

Hồ Minh Lân
Many thanks for your explanation above, I am clear abt the 2 tests now. Still have 2 quests to ask as belows:

1. Is it okie if saying that it is always "safer" to employ Spearman to test for correlations? Because the system is not always known and to what extent do we know abt the system is unknown. If so, why linear regression has been so often employed to test for correlations in papers?
2. It is confusing for me whether to use Spearman or linear regression to test for correlation. Which one will bring the results more "acceptable"? Or either is okay?
 
Last edited by a moderator:
Joined
Nov 2, 2005
Messages
2,143
#4
Non-parametric test dùng khi ta không giả sử được phân bố của biến, hoặc phương sai...v.v
Bạn nên cẩn thận khi dùng linear regression khi không chắc về phân bố của mẫu
http://www.duke.edu/~rnau/testing.htm
Tôi đọc qua thì thấy hình như correlation với regression có hai mục đích hoàn toàn khác nhau. Regression liên qua đến tính chất dự báo (bạn tìm công thức, best-fit line hay một dạng quy luật gì đó sao cho khi có một input mới vào thì dự đoán được output). Correlation chỉ nói lên mối quan hệ nhất định, ví dụ cùng tăng, hoặc một bên tăng một bên giảm.
Tôi nghĩ trong thực nghiệm rất ít dùng Spearman test do có vẻ như các số liệu đo được được cho là có phân bố chuẩn rồi (chắc vậy nên thường sử dụng linear regression).
Dùng Spearman có vẻ an toàn hơn (không cần bất kỳ giả thiết gì về population hay variance), nhưng tôi không phải chuyên gia nên không biết kết quả có bị ảnh hưởng gì không. Có lẽ khi đó phải hỏi ý kiến nhà chuyên môn.
Có một cái tôi thấy cũng không thoải mái là hình như người ta hay lạm dụng Duncan test thì phải. Các bạn có thấy thế không?
 
Joined
Feb 5, 2009
Messages
45
#5
Non-parametric test dùng khi ta không giả sử được phân bố của biến, hoặc phương sai...v.v
Bạn nên cẩn thận khi dùng linear regression khi không chắc về phân bố của mẫu
http://www.duke.edu/~rnau/testing.htm
Tôi đọc qua thì thấy hình như correlation với regression có hai mục đích hoàn toàn khác nhau. Regression liên qua đến tính chất dự báo (bạn tìm công thức, best-fit line hay một dạng quy luật gì đó sao cho khi có một input mới vào thì dự đoán được output). Correlation chỉ nói lên mối quan hệ nhất định, ví dụ cùng tăng, hoặc một bên tăng một bên giảm.
Tôi nghĩ trong thực nghiệm rất ít dùng Spearman test do có vẻ như các số liệu đo được được cho là có phân bố chuẩn rồi (chắc vậy nên thường sử dụng linear regression).
Dùng Spearman có vẻ an toàn hơn (không cần bất kỳ giả thiết gì về population hay variance), nhưng tôi không phải chuyên gia nên không biết kết quả có bị ảnh hưởng gì không. Có lẽ khi đó phải hỏi ý kiến nhà chuyên môn.
Có một cái tôi thấy cũng không thoải mái là hình như người ta hay lạm dụng Duncan test thì phải. Các bạn có thấy thế không?
Cám ơn bạn.
1, Đúng là việc dùng Spearman sẽ an toàn hơn linear regression khi ta nhằm khẳng định statistical correlation giữa 2 dãy biến, nhưng vẫn chưa hiểu sao linear thường được dùng hơn trong các published papers?
2, Nếu chỉ nhằm chứng minh có correlation thôi thì có lẽ dùng Spearman sẽ ít nguy cơ bị phản đối?
 
Joined
Sep 18, 2006
Messages
279
#6
Many thanks for your explanation above, I am clear abt the 2 tests now. Still have 2 quests to ask as belows:

1. Is it okie if saying that it is always "safer" to employ Spearman to test for correlations? Because the system is not always known and to what extent do we know abt the system is unknown. If so, why linear regression has been so often employed to test for correlations in papers?
2. It is confusing for me whether to use Spearman or linear regression to test for correlation. Which one will bring the results more "acceptable"? Or either is okay?
hi friend,

Warmly welcome to our discussion forum where we can share our experiences and knowledge of biology to each others.

Concerning about your questions, although I am so stupid with biostatistics since I havent participated officially in any training courses, the website I found below might give you ideas to solve your problems.

http://udel.edu/~mcdonald/statregression.html

Please take a look in the introduction of method with focus on the quote below:

When you have two measurement variables in biology, you'll usually want to do both correlation and regression—you'll want the P-value of the hypothesis test, and the r2 that describes the strength of the relationship, and the regression line that illustrates the relationship. It would be less confusing if there were a single name for the whole process, just like "anova" includes testing hypotheses, partitioning variance, and estimating means. Since there isn't a single name, one option is to refer to the P-value and r2 as resulting from a correlation analysis, while the equation of the line results from linear regression: "The correlation of variables X and Y is significant (r2=0.89, P=0.007); the linear regression line is shown in the figure." It is also common to say something like "The linear regression of Y on X is significant (r2=0.89, P=0.007)"; either seems appropriate
As I knew so far, addition to the Gaussian distribution, either Pearman or linear regression can be selected in your analysis; linear regression is used to display the line regression with bet fit values (as you want to present a standard curve) whereas Pearman prefers to the correlation of two variable datasets with the inclusion of the P-value (for strong conclusion).

Once again, thank for taking the time to join with us in this forum. We are also looking forward to receiving your contributions.
 
Joined
Feb 5, 2009
Messages
45
#7
hi friend,

Warmly welcome to our discussion forum where we can share our experiences and knowledge of biology to each others.

Concerning about your questions, although I am so stupid with biostatistics since I havent participated officially in any training courses, the website I found below might give you ideas to solve your problems.

http://udel.edu/~mcdonald/statregression.html

Please take a look in the introduction of method with focus on the quote below:



As I knew so far, addition to the Gaussian distribution, either Pearman or linear regression can be selected in your analysis; linear regression is used to display the line regression with bet fit values (as you want to present a standard curve) whereas Pearman is prefer to the correlation of two variable datasets with the inclusion of the P-value (for strong conclusion).

Once again, thank for taking the time to join with us in this forum. We are also looking forward to receiving your contributions.

Thanks for sharing, I am reading the site you recmmended and would come back to discuss when I have digested it.
 
Joined
Feb 5, 2009
Messages
45
#8
Các bạn ơi, đọc hết mấy thứ rồi mà vẫn chưa tự giải thích được tại sao linear thường được dùng để test for correlation hơn là các non-parametric test like Spearman. Trong khi linear đòi hỏi mẫu có phân phối chuẩn còn Spearman thì không đòi hỏi nhiều giả thiết khắt khe đối với mẫu.
 
Joined
Jan 17, 2009
Messages
6
#9
Linear hay parametric được dùng thường hơn các non-parametric vì nó nhạy cảm hơn và có tính thống kê mạnh hơn. Thí dụ, nếu so sánh mối quan hệ giữa hai mẩu bằng Spearman test thì được kết quả R^2=0.78 và P=0.008, thì cũng cho hai mẩu đó nhưng tính bằng Linear test thì được R^2=0.89 và P=0.0005, chẳng hạn. Bạn có thể thử 2 cách tính này cho những dử kiện có thực của bạn thì sẽ kiểm chứng được cụ thể hơn.

Trong khoa học thực nghiệm người ta cảm thấy hứng thú khi khám phá ra được một mối quan hệ nào đó giữa 2 biến hơn là không tìm thấy mối quan hệ nào. Tuy nhiên vì độ nhiễu của dữ kiện thu được có thể che dấu mối quan hệ đang nghi vấn, người ta do đó cần phương pháp thống kê nào nhạy cảm và thích hợp nhất để chỉ ra được mối quan hệ nếu có này. Mục đích khám phá ra cái mới có lẽ quan trọng hơn là dùng phương pháp thống kê nào để ít bị phản đối. Đương nhiên là người nghiên cứu phải có trách nhiệm để bảo đảm độ tin cậy của dữ kiện và tính đúng đắn của pp thống kê áp dụng bằng cách thu thập thêm dữ kiện hay chứng minh kết quả bằng nhiều pp khác.

Hồ Minh Lân
 
Joined
Feb 5, 2009
Messages
45
#10
Linear hay parametric được dùng thường hơn các non-parametric vì nó nhạy cảm hơn và có tính thống kê mạnh hơn. Thí dụ, nếu so sánh mối quan hệ giữa hai mẩu bằng Spearman test thì được kết quả R^2=0.78 và P=0.008, thì cũng cho hai mẩu đó nhưng tính bằng Linear test thì được R^2=0.89 và P=0.0005, chẳng hạn. Bạn có thể thử 2 cách tính này cho những dử kiện có thực của bạn thì sẽ kiểm chứng được cụ thể hơn.

Trong khoa học thực nghiệm người ta cảm thấy hứng thú khi khám phá ra được một mối quan hệ nào đó giữa 2 biến hơn là không tìm thấy mối quan hệ nào. Tuy nhiên vì độ nhiễu của dữ kiện thu được có thể che dấu mối quan hệ đang nghi vấn, người ta do đó cần phương pháp thống kê nào nhạy cảm và thích hợp nhất để chỉ ra được mối quan hệ nếu có này. Mục đích khám phá ra cái mới có lẽ quan trọng hơn là dùng phương pháp thống kê nào để ít bị phản đối. Đương nhiên là người nghiên cứu phải có trách nhiệm để bảo đảm độ tin cậy của dữ kiện và tính đúng đắn của pp thống kê áp dụng bằng cách thu thập thêm dữ kiện hay chứng minh kết quả bằng nhiều pp khác.

Hồ Minh Lân
Cám ơn bạn (anh?) Lân nhiều về giải thích cặn kẽ ở trên. Giờ hiểu linear hay được dùng hơn các non-parametric rồi.
Nhưng có một điều vẫn băn khoan đó là mặc dù nhiều khi từ linear ta có trị giá R và P rồi, đảm bảo có signficant correlation như mong muốn và hứa hẹn publication-positive data nhưng bản thân vẫn thấy chưa thoả mãn vì data của mình nó không thoả mãn các điều kiện để dùng linear như phân phối chuẩn, ... Vẫn biết là không thể bỏ qua các yếu tố nhiễu, nhưng vẫn thấy băn khoăn thế nào ý.
 
Joined
Sep 18, 2006
Messages
279
#11
Linear hay parametric được dùng thường hơn các non-parametric vì nó nhạy cảm hơn và có tính thống kê mạnh hơn. Thí dụ, nếu so sánh mối quan hệ giữa hai mẩu bằng Spearman test thì được kết quả R^2=0.78 và P=0.008, thì cũng cho hai mẩu đó nhưng tính bằng Linear test thì được R^2=0.89 và P=0.0005, chẳng hạn. Bạn có thể thử 2 cách tính này cho những dử kiện có thực của bạn thì sẽ kiểm chứng được cụ thể hơn.

Trong khoa học thực nghiệm người ta cảm thấy hứng thú khi khám phá ra được một mối quan hệ nào đó giữa 2 biến hơn là không tìm thấy mối quan hệ nào. Tuy nhiên vì độ nhiễu của dữ kiện thu được có thể che dấu mối quan hệ đang nghi vấn, người ta do đó cần phương pháp thống kê nào nhạy cảm và thích hợp nhất để chỉ ra được mối quan hệ nếu có này. Mục đích khám phá ra cái mới có lẽ quan trọng hơn là dùng phương pháp thống kê nào để ít bị phản đối. Đương nhiên là người nghiên cứu phải có trách nhiệm để bảo đảm độ tin cậy của dữ kiện và tính đúng đắn của pp thống kê áp dụng bằng cách thu thập thêm dữ kiện hay chứng minh kết quả bằng nhiều pp khác.

Hồ Minh Lân
Cám ơn rất nhiều về câu trả lời cặn kẽ của bác.

Em cứ nghĩ là dùng linear regression là khi ta muốn biểu diễn đồ thị tuyến tính của 2 dãy số liệu (tất nhiên số liệu này tuân theo phân phối Gaussion) và vẫn cho ta sô liệu về tương quan, tuy nhiên, người ta cũng cảnh báo không nên dùng tương quan trong linear regression để đánh giá độ tương quan vì chúng ta đã áp đặt số liệu của ta tuân theo qui luật của hàm Y = AX + b.

Em dùng GraphPad Prism 4.0, khi tính linear regression thì nó đưa ra cái giá trị P value của slope thôi. Không thấy P value của correlation (hay là em chưa biết cách đưa nó ra nhỉ). Hơn nữa, phần mềm này lại không có cách tinh correlation theo Pearman. Bác có quen với phần mềm này không? xin chỉ giáo giúp em một tí.

Cám ơn bac đã tham gia 4frum, chúc bác có thời gian vui vẻ bên anh em.
 
Joined
Jan 17, 2009
Messages
6
#12
Cũng như nhiều người mới dùng các pp thống kê, lúc đầu tôi cũng lạng quạng khi nào dùng lối phân tích tương quan (correlation) và khi nào dùng hồi qui tuyến tính (linear regression). Khi học kỹ lại thì mới hiểu được như sau:

Khi có 2 dãy biến số, chúng ta sẽ muốn xem 2 biến này có: 1) phụ thuộc với nhau (nguyên nhân và hậu quả)? 2) liên hệ với nhau (cùng chiều hoặc trái chiều)? và 3) được minh họa bởi biểu đồ nhằm giúp việc dự đoán giá trị của một biến chưa biết từ một biến được biết trước không?

Như vậy nếu gộp ý của bác Lương và bác Trung lại thì chúng ta sẽ biết lý do dùng cách phân tích tương quan và hồi qui tuyến tính.

Kết quả của việc xác định 2 dãy biến này có tương quan với nhau không được diễn đạt bằng trị số P (giá trị càng nhỏ thì xác suất xãy ra càng lớn) và hệ số tương quan r (lớn hơn 0.8 nhỏ hơn 1: tương quan mạnh; nhỏ hơn 0.5: tương quan yếu; 0: không tương quan; giá trị dương: tương quan cùng chiều; âm: trái chiều). Tiếp đến là chúng ta muốn minh họa sự tương quan này bằng một biểu đồ nhằm giúp ta có thể "thấy" được và có thể dự đoán giá trị chưa biết của một biến qua giá trị tương ứng có được từ công thức của đường tuyến tính được hồi qui (linear regression). Hệ số xác định r bình phương, r^2, hay r-square (coefficient of determination) dùng để diển tả bao nhiêu phần trăm của dữ kiện có thể tính toán/giải thích được bằng công thức của hồi qui tuyến tính.

Câu hỏi về chủ đề này của AdaptivePlasticity rất thông dụng và cần thiết nên hy vọng giải thích đơn giản trên giúp được phần nào những khái niệm có vẽ khô khan và khó nuốt của thống kê sinh học.

Trung,
Tôi chưa có dùng GraphPad nên cũng không rỏ. Tôi chỉ dùng các công thức thống kê thông dụng của Excel. Nếu muốn tính Spearman test bằng Excel bạn có thể dùng công thức Pearson.

Hồ Minh Lân
 
Joined
Feb 5, 2009
Messages
45
#13
Nhà cháu xin phép tổng kết topic. Nhìn chung những gì nhà cháu băn khoăn về linear và Spearman đều đã được bác Lân và bác Trung giải thích cặn kẽ. Bác Lương có chú ý cho nhà cháu 2 khái niệm regression và correlation. Đáng học tập các bác!. Mong sao 4r có nhiều topic có thể thu hút được nhiều pro hơn nữa ạ.
Hay bác nào có chuyện gì hay hay liên quan đến thống kê sinh học trong nghiên cứu hẹp của mìn thì kể cho nhà cháu và các bạn khác nghe để học hỏi lấy kinh nghiệm nghiên cứu không ạ?. Một lần nữa cám ơn các bác vì sự nhiệt thành và uyên bác.
 
Joined
Nov 2, 2005
Messages
2,143
#14
Statistics đúng là con dao hai lưỡi. Theo ước đoán, 99% người dùng thống kê không nắm rõ chính xác các khái niệm cơ bản về thống kê. Hiểu biết của tôi cũng rất hạn chế, chủ yếu dùng như công thức nấu nướng thôi. Có thời gian bạn đọc cuốn: Seeing through statistics có nhiều điều rất thú vị.
Một lưu ý cho bạn plasticity là non-parametric test cũng phổ biến không kém parametric test trong các bài báo. Hình như nếu bạn đi vào nghiên cứu lâm sàng, hoặc ví dụ một đồng nghiệp của tôi làm vi sinh vật đất, thì ranking tests nói chung chiếm ưu thế.
 
Joined
Feb 5, 2009
Messages
45
#15
Statistics đúng là con dao hai lưỡi. Theo ước đoán, 99% người dùng thống kê không nắm rõ chính xác các khái niệm cơ bản về thống kê. Hiểu biết của tôi cũng rất hạn chế, chủ yếu dùng như công thức nấu nướng thôi. Có thời gian bạn đọc cuốn: Seeing through statistics có nhiều điều rất thú vị.
Một lưu ý cho bạn plasticity là non-parametric test cũng phổ biến không kém parametric test trong các bài báo. Hình như nếu bạn đi vào nghiên cứu lâm sàng, hoặc ví dụ một đồng nghiệp của tôi làm vi sinh vật đất, thì ranking tests nói chung chiếm ưu thế.
Cám ơn bác đã chia sẻ, đúng là để hiểu rỏ từng công cụ thống kê ta dùng thì chả khác gì đi tìm hiểu bản chất hóa sinh của từng recipe ta sử dùng ở từng bữa ăn. Thôi thì cứ recipe nào nấu được thứ ngon miệng và không có hại (nhiều người ăn mà vẫn chưa chết) thì ta dùng cho tiện.
Em vẫn thích dùng non-parametric vào mục đích test for correlation hơn parametric, mặc dù cái đầu có vẻ ít mẫn cảm hơn cái sau.
PS: Tiện đây các bác cứ gọi em là thằng AdaPlas cho tiện, mỗi bác gọi 1 tên em sợ không nhận ra mình.
 
Joined
Sep 18, 2006
Messages
279
#16
ví dụ một đồng nghiệp của tôi làm vi sinh vật đất, thì ranking tests nói chung chiếm ưu thế.
Ý bác là họ dùng non-parametric test? và ranking test để so sánh sự khác nhau giữa 2 giá trị mean? thuật ngữ lắm lúc hoán vị, loằng quằng làm em confused quá.

PS: Tiện đây các bác cứ gọi em là thằng AdaPlas cho tiện, mỗi bác gọi 1 tên em sợ không nhận ra mình.
Em nghĩ gọi là AP = Ăn Phở đi cho nó Việt hóa, đọc cho nó đỡ đau lưỡi :d
 
Joined
Feb 5, 2009
Messages
45
#17
Topic này kết thúc tại đây là ĐẸP vì câu hỏi đặt ra đã được giải đáp đầy đủ. Bác nào muốn thảo luận thêm mời mở topic riêng. Cám ơn các bác đã tham gia. Hẹn gặp lại.
 
Joined
Jan 19, 2009
Messages
10
#20
Em có 1 số phần cũng phải dùng đến mấy cái thống kê, nhưng mờ động vào thấy đầu óc nhức bưng bưng, đọc 1 hồi không sao back ngược lại được để hiểu vấn đề. Hiện nay, vẫn còn rất nhiều bức tường to tướng tồn đọng. Các anh chị cho em hỏi, trong di truyền liên kết giới tính, khi tính mức độ tin cậy của tần suất 1 alen của gen nằm trên NST X của quần thể, thông thường người ta dựa vào phương pháp nào???? :eek:
 
Top