我正在学习生物医学计算机科学,我必须研究一篇关于基因型-表型关联的论文。
在本文中,作者使用相关性分析,首先计算 Pearson 相关性,然后计算超几何分布以过滤掉无关紧要的关联。
http://www.biomedcentral.com/1471-2164/7/257
在方法/将基因与表型相关联
虽然相关性衡量了生物体的基因组内容与其表型之间的关联强度,但我们还应用了另一种方法,利用超几何分布函数来确定这些
关联的重要性 [...],其中结果小于或等于 20%反应被认为是负面的。因此,对于在 M 个物种中发现的给定基因,超几何函数提供了该基因在包含 COG 并且在实验室测试中也是阳性的 m 个物种中发现的随机概率。
以下标准适用于相关数据集。特定 COG 和表型之间的交叉点必须包含至少 3 个生物,对于任何交叉点,30% 的微生物必须共享 COG。使用标准的 Bonferroni 纠错来调整分数以进行多次测试。
由于 Bonferroni 校正是最保守的校正之一,因此可能会不必要地丢弃一些生物学相关的关联。在这种情况下被设置为小于等于 0.01,因此,任何小于或等于 0.0001 的超几何分布分数都被认为是显着的。使用这些标准,我们设置了 0.8 和 0.9 的相关阈值来评估 COG 表型关联的重要性。
我的问题是:这是否是有效的科学相关分析?有没有保留?
另外,你能给我一个好的科学统计书的想法吗?