使用 Pearson 相关性和 Bonferroni 方法进行相关性分析是否是找到两组数据之间相关性的有效方法

机器算法验证 相关性
2022-04-11 18:54:28

我正在学习生物医学计算机科学,我必须研究一篇关于基因型-表型关联的论文。

在本文中,作者使用相关性分析,首先计算 Pearson 相关性,然后计算超几何分布以过滤掉无关紧要的关联。

http://www.biomedcentral.com/1471-2164/7/257
在方法/将基因与表型相关联

虽然相关性衡量了生物体的基因组内容与其表型之间的关联强度,但我们还应用了另一种方法,利用超几何分布函数来确定这些
关联的重要性 [...],其中结果小于或等于 20%反应被认为是负面的。因此,对于在 M 个物种中发现的给定基因,超几何函数提供了该基因在包含 COG 并且在实验室测试中也是阳性的 m 个物种中发现的随机概率。
以下标准适用于相关数据集。特定 COG 和表型之间的交叉点必须包含至少 3 个生物,对于任何交叉点,30% 的微生物必须共享 COG。使用标准的 Bonferroni 纠错来调整分数以进行多次测试。
由于 Bonferroni 校正是最保守的校正之一,因此可能会不必要地丢弃一些生物学相关的关联。在这种情况下被设置为小于等于 0.01,因此,任何小于或等于 0.0001 的超几何分布分数都被认为是显着的。使用这些标准,我们设置了 0.8 和 0.9 的相关阈值来评估 COG 表型关联的重要性。α

我的问题是:这是否是有效的科学相关分析?有没有保留?

另外,你能给我一个好的科学统计书的想法吗?

1个回答

如果您想测试给定的相关系数是否与 0 显着不同,您将使用原假设下的样本 Pearson 乘积矩相关分布。他们在这里问的是不同的。在特定情况下,他们使用超几何分布,因为如果确实没有相关性,他们想知道对于 0 和 M 之间的每个 m,基因将出现在 M 物种中的 m 中的机会是多少。这确实描述了超几何分布. 因此,如果 m 足够大,您将推断分布不是超几何的,因此存在真正的相关性。这似乎是非零相关性的替代测试。通常可以对同一个零假设进行多个测试,在这种情况下,您会选择在合理假设数据的情况下最强大的一个。我不清楚这个超几何测试是否具有良好的功率特性。

关于好的统计教科书,我不知道有任何一般为科学设计的教科书。如果您想要一个好的工程师统计文本或医学统计文本,我可以提出建议。我还在亚马逊上评论了 600 多本书。因此,如果您在亚马逊上四处逛逛,您很有可能会找到我对其中一些书的评论。对于工程,我建议找一本 Douglas Montgomery 的书或 Jay Devore 的书。对于医学,请查看 Riffenburgh 的“医学统计学”或奥特曼的书。我还写了自己的文章“内科医生、护士和临床医生的生物统计学要点”。对于一般统计,David Moore 的“The Practice of Statistics”是一本出色的介绍性文本。