多次测试的 Alpha 调整

机器算法验证 假设检验 多重比较
2022-03-23 01:52:50

我了解多重测试的 alpha 调整逻辑。但是,我很困惑是否应该将此校正应用于数据集上的所有测试或仅应用于相关的成对比较。

例如,我有四个成对比较(男性与女性、已婚与其他、英语与其他语言、年轻人与老年人)。它们来自同一个样本(数据集)。

如果我使用 0.05 和 Bonferroni,我的校正 alpha 应该是 0.025(即为每个成对比较计算)还是 0.0125(即为总共四个成对比较计算)。家庭错误的概念如何适应这里?

我必须补充一点,我的兴趣在于每个配对比较(例如男性与女性比较),而不是不同配对(例如已婚男性与已婚女性)。

3个回答

你的第二个号码是正确的。我什至不确定你如何计算第一个。成对比较计为 1。您如何除以 2?

无论如何,如果您不将 4 作为比较次数,那么您就错过了 Bonferroni 的工作原理。每次您进行测试时,在 alpha 级别,您都有可能犯一个错误,说当没有真正的差异时存在真正的差异。通过向下调整 alpha,您可以弥补在您的所有测试中该机会被夸大的事实,在您的情况下为 1-(1-alpha)^4 或 0.185。这比偶然看到显着效果的机会要好于 1/6。对于 Bonferroni 调整后的 alpha,使用上面的公式,所有 4 个测试的机会仍然约为 0.05。

还有两件事要记住。

Bonferroni 真的是一次钓鱼探险的调整。如果您有充分的理由事先进行这些单独的测试,那么不要太担心更正。从统计学上讲,你可以增加错误的几率仍然是正确的,但在你所做的实验和你作为研究人员的多年中,这也是正确的。我一般反对他们。

要记住的另一件事是 0.05 的 alpha 截止值通常是一个非常自由的事情,无论如何肯定会有很多 I 类错误。因此,如果您在这里询问是否可以选择更高的 alpha 以便您的一项测试顺利通过,那么请开始考虑您的效果的真实幅度、置信区间、您拥有的数据的质量等。尝试在 0.05 处勉强获得一个测试的显着差异几乎总是错误的思考方式。

@John 有一个很好的答案我特别喜欢关于钓鱼探险以及如何不需要调整 alpha 的讨论。我想在这个讨论中添加一个额外的方面。通过假设检验,需要担心两种不同的错误:I 型和 II 型(也称为 alpha 错误和 beta 错误)。这两种都是不好的,我们想避免它们。当人们谈论 alpha 调整时,他们只关注 I 型错误的可能性(也就是说,在没有错误时说有差异)。但是,调整 alpha 以最小化 I 类错误必然会降低功率。因此,它必然增加II 类错误的概率(也就是说,说实际上没有差异)。此外,值得注意的是,先验没有理由相信 I 型错误比 II 型错误更糟糕(尽管每个人似乎都认为一定是这样)。相反,哪个更糟会因情况而异,并且是研究人员必须做出的判断。换句话说,在决定测试多重比较的策略(例如,alpha 调整策略)时,必须考虑该策略对I型和 II 型错误的影响,并相对于以下因素平衡这些影响:这些错误的严重性,你有多少数据,以及收集更多数据的成本。

另一方面,根据您的描述,在我看来,您的情况最好使用阶乘方差分析来分析,其中性别为因素 1,婚姻状况为因素 2,语言为因素 3,年龄为因素 4。从描述(我承认它很稀疏)我不明白为什么单元格意味着方法(即单向方差分析)更可取。如果您对交互作用不感兴趣,则阶乘 ANOVA 的主要影响已经是正交的(至少在 s 相同的情况下),并且 Bonferroni 校正不相关。当然,仍然有可能出现超过 5% 的 I 类错误,但我非常相信 @John 的第四段;当我测试理论上建议的先验正交对比时,我不使用 alpha 调整。 n

我也喜欢@john 的回答,但我想补充一点,而不是重要性,你应该更关心效果大小,特别是如果你不进行钓鱼探险。您还应该关心其他事情。罗伯特·阿贝尔森(Robert Abelson)在其出色的著作《作为原则论证的统计》中说,我们应该根据“魔术”标准评估统计结果:量级——影响有多大?衔接 - 它需要很多资格和例外吗?通用性 - 是否适用于大范围(例如很多类型的人,或其他) 趣味性 - 有趣的效果更好!和可信度——人们能相信吗?

我复习这本书