何时纠正多重比较中的 p 值?

机器算法验证 多重比较 邦费罗尼 tukey-hsd-测试
2022-03-06 06:56:37

恐怕相关问题没有回答我的问题。我们评估> 2个分类器(机器学习)的性能。我们的零假设是性能没有差异。我们执行参数 (ANOVA) 和非参数 (Friedman) 检验来评估这个假设。如果它们很重要,我们想找出在事后探索中哪些分类器不同。

我的问题是双重的:

1)是否有必要在多重比较测试后校正 p 值?“Alphafehler Kumulierung”上的德国维基百科网站表示,只有在对相同数据进行多个假设测试时才会出现问题。在比较分类器 (1,2),(1,3),(2,3) 时,数据仅部分重叠。是否仍然需要更正 p 值?

2) P 值校正通常在使用 t 检验的成对检验之后使用。在进行专门的事后测试时是否也有必要,例如 Nemenyi(非参数)或 Tukey 的 HSD 测试?这个答案对 Tukey 的 HSD 说“不”:Tukey HSD 测试是否对多重比较正确?. 是否有规则或者我必须为每个潜在的事后测试查找这个?

谢谢!

1个回答

对问题 1 的回答
如果您关心犯 I 类错误的概率,则需要针对多重比较进行调整。隐喻/思想实验的简单组合可能会有所帮助:

想象一下,你想中彩票。奇怪的是,这种彩票给了您 0.05 的中奖机会(即 20 分之一)。M是该彩票中的彩票成本,这意味着您对单次彩票调用的预期回报为M /20。现在更奇怪的是,想象一下,由于未知的原因,这个成本M允许您拥有任意数量的彩票(或至少多于两张)。想着自己“玩的越多,赢的越多”,你就抢了一堆票。您在抽奖时的预期回报不再是M /20,而是相当大一些。现在将“中彩票”替换为“犯第一类错误”。

如果你不关心错误,也不关心人们反复嘲弄地把注意力转移到某部关于软糖的漫画上,那就继续吧,不要为多重比较进行调整。

“相同数据”的问题出现在全族纠错方法(例如 Bonferroni、Holm-Sidák 等)中,因为“族”的概念有些模糊。然而,错误发现率方法(例如 Benjamini 和 Hochberg、Benjamini 和 Yeuketeli 等)具有一个特性,即它们的结果在不同的推理组中是稳健的。


对问题 2 的回答
大多数成对测试都需要修正,尽管在所谓的测试中存在风格和学科差异。例如,有些人提到“Bonferroni t检验”(这是一个巧妙的技巧,因为 Bonferroni 既没有开发t检验,也没有开发用于多重比较的 Bonferroni 调整 :)。我个人对此感到不满意,因为(1)我想区分进行一组统计测试和调整多重比较以有效地理解我所做的推论,以及(2)当有人出现时的可靠定义的新的成对测试,然后我知道我可以对多重比较进行调整。α