较低的 p 值是否意味着测试具有更高的功效?

机器算法验证 p 值 统计能力
2022-04-02 10:51:12

问题的通用版本:如果您在相同数据上比较两个具有不同假设的统计测试,并且其中一个给出的 pvalue 比另一个低,这是否意味着它具有更高的功效?

生物统计学版本:比较 SKAT 和 SKAT-O 测试(http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3440237/pdf/kxs014.pdf)。如果正在测试的基因变体是单向的,SKAT-O 意味着具有更大的力量,这是否意味着如果它给出的 pvalue 比 SKAT 更低(接近于零),那么它在这种情况下确实具有更大的力量,我可以假设遗传架构是单向的,更像是负担测试首选设置?我很好奇,因为知道这个问题的答案将使我能够有力地决定使用哪些 pvalues。

2个回答

一般来说,答案是否定的。假设对于相同的假设检验问题对相同数据有两个不同的假设检验假设, 使用数据的不同方面,例如,原始数据与排名。为了进行有意义的比较,我们必须假设两个检验具有相同的显着性水平,(比如 =0.05)。或者,至少,这是通常的方法。TTH0H1TTα

但是,通常只报告 p 值而没有任何事先选择的显着性水平,并且 p 值被解释为“证据强度”的某种度量。如果这是有效的,那么对证据强度的良好衡量(重要:不是关联强度或效果大小!)当然是有争议的。如果那样做,权力就不是一个自然的概念,因为这取决于(不是选择的!)显着性水平。不知何故,这个想法是接近零的 p 值是反对原假设的有力证据。至少,这是费舍尔的论点。

我们现在如何在没有权力概念的情况下比较假设检验?我们可以查看(p 值)的分布。在 null 下,对于这两个测试, 是均匀分布的。我们想要一个测试,在另一种情况下,倾向于给出小的值。所以现在,可以根据备择假设下的分布来比较这两个检验。我们想要在某种意义上给出“随机较小”PPPPP

有关此方法的(更多)信息,请参阅https://www.bookdepository.com/Confidence-Likelihood-Probability-Tore-Schweder/9780521861601

负担、SKAT 和 SKAT-O 测试代表了 3 种从低频遗传变异中汇集信息的方法,以便可以评估基因组位点与生物学特征(表型)的关系。负担测试假设基因座上的所有低频变异与表型具有相同的关系(单向),因此将所有变异合并以获得基因座的单个回归系数。相反,SKAT 测试将变体视为随机效应,假设变体之间的净效应为零,并评估遗传变体之间表型效应的方差大小。

SKAT-O 实际上是负担和 SKAT 测试的加权组合,根据数据确定负担(单向)和 SKAT(均值零)模型之间的适当权重。因此,如果存在表型效应的一个方向的趋势,那么预计它会比负荷测试或 SKAT 测试表现更好。在描述 SKAT-O 的链接论文中,作者基于模拟进行了经验功率测试,然后使用所有这些方法检查了已发布的数据集。他们通过比较p值来估计已发布数据集的相对表现,这可能是该问题基础的一部分。

在该论文的上下文中,使用p值来评估同一数据集上的一些密切相关的测试是有意义的。然而,一般来说,关于p值与权力关系的一般陈述可能会产生误导,正如@kjetil b halvorsen 在此处的另一个答案中所指出的那样。

如果您正在考虑使用这些方法分析您自己的数据,请首先考虑您对基因组位点的了解。不要运行所有 3 个测试,而只需选择提供最低p值的一个。如果您不了解您感兴趣的基因座基因组变异的性质或影响,SKAT-O 测试似乎更可取,因为它将从您的数据中选择负担和 SKAT 模型之间的最佳权重。这将消耗一个额外的自由度(可能是 2 个)用于统计测试,但有大量变体在功效方面不应该产生太大的实际差异。