在 Fisher p 值框架中使用多重比较校正

机器算法验证 假设检验 p 值 多重比较
2022-03-21 08:18:00

我对卷入费舍尔与内曼-皮尔森对p-value (在这里这里已经很好地阐明了),但我一直在思考一个我一直在绕圈子的问题。 对多重比较进行校正是否合适p-费雪解释范式中的价值p-价值观?

现在,据我了解,正式对多重比较进行更正α, 不p-价值观。例如,Bonferroni 的修正是α/k, 在哪里k是比较次数。但它是一个简单的开关来乘以p-值k, 并在 Neyman-Pearson 框架中得出等价的结论(它也更容易呈现给人们更舒服地看到α=0.05)。

然而,Fisher 框架没有α价值。P-value 更多地被认为是反对零假设的证据,而不是硬决策标准。鉴于此,纠正这一点是否仍然合理p- 多重比较的值?


对于其他一些情况,我在面向药物发现的环境中工作,并且不满足使用 Neyman-Pearson 的必要条件(特别是电源要求)。Fisher 框架似乎更适合指导寻求有希望的治疗方法(以发现模式,而不是确认模式)。一个例子是如果有5与对照相比,潜在的治疗方案,最佳方案显示出具有临床意义的差异,具有显着性p=0.045. 如果这没有得到纠正,那似乎很有希望,应该继续努力。但是,如果我使用 Bonferroni 更正它,p=0.225,我可能会回到绘图板并扔掉所有5治疗。

[注意:我也不必使用 Bonferroni 进行更正;这只是最简单的例子。我对应用校正以进行多重比较和家庭错误率的理论更感兴趣。]

2个回答

在@MichaelLew 的回答(+1)之后,我将观点改变为相反的观点;现在我认为p-值不应该被纠正。我已经修改了我的答案。

为了让讨论更生动,我将参考著名的 XKCD 漫画在哪里20果冻豆的颜色经过独立测试与痤疮有关,绿色果冻豆产量p<0.05; 具体而言,让我们假设它是p=0.02

绿色果冻豆

Fisher方法是考虑p-value 作为证据强度的量化,或者更确切地说是作为惊喜的衡量标准(“惊喜”)——我喜欢这个表达方式,并且发现它直观清晰,同时又相当精确。我们假设空值是真的,并量化我们观察到这样的结果应该有多惊讶。这产生了一个p-价值。“混合”Fisher-Neyman-Pearson 方法中,如果我们的惊讶程度超过某个选定的惊讶阈值 (p<α) 然后我们另外称结果为“显着”;这允许控制第一类错误率。

重要的是,阈值应该代表我们之前的信念和期望。例如,“非凡的主张需要非凡的证据”:我们需要非常惊讶地相信例如千里眼的证据,因此想设置一个非常低的阈值。

在果冻豆的例子中,每个人p- 值反映了每个个体相关性的惊人程度。Bonferroni 校正替换αα/k以控制总体 I 类错误率。在这个答案的第一个版本中,我认为我们也应该不那么惊讶(并且应该考虑我们的证据较少)p=0.02如果我们知道我们跑了绿色果冻豆20检验,因此 Fisher 的p-values 也应该替换为kp.

现在我认为这是错误的,并且p-值不应调整。

首先,让我们指出,要使混合方法保持一致,我们不可能同时调整两者,p-价值观和α临界点。只能调整一个或另一个。以下是为什么应该这样做的两个论据α.

  1. 考虑完全相同的果冻豆设置,但现在我们先验地预计绿色果冻豆可能与痤疮有关(例如,有人提出了具有此预测的理论)。那么我们会很高兴看到p=0.02并且不会对任何事情进行任何调整。实验没有任何改变!如果p-value 是(每个单独实验的)令人惊讶的度量,然后p=0.02应该保持不变。我们的变化是什么α,这是很自然的,因为正如我上面所说,阈值总是以一种或另一种方式反映我们的假设和期望。

  2. P-value 有一个明确的解释:它是在原假设下获得观察到的(甚至不太有利的)结果的概率。如果青豆和粉刺之间没有联系,那么这个概率是p=0.02. 将其替换为kp=200.02=0.4破坏了这种解释;现在这不再是任何事情的可能性了。此外,想象一下不是20颜色经过测试,但100. 然后kp=2, 大于1,显然不可能是概率。而减少α经过100仍然有意义。

就证据而言,绿色果冻豆与痤疮有关的“证据”被测量为p=0.02就是这样;根据情况(在这种情况下,根据执行测试的数量)会发生什么变化,这就是我们如何处理这些证据。

我应该强调,“我们如何对待证据”在费舍尔的框架中也非常不固定(参见这句名言)。当我这么说p-值最好不要调整,这并不意味着罗纳德·费舍尔爵士会看p=0.02对于绿色果冻豆,并认为这是一个令人信服的结果。我相信他仍然会对此保持警惕。

结论性比喻:樱桃的过程不会修改樱桃!它改变了我们对待这些樱桃的方式。

Amoeba 的答案很好,但正如他所指出的,这不是我要给出的答案。

答案当然是视情况而定。这取决于您是希望 P 值以特定比较的实际结果为条件,还是以您进行的比较次数为条件。在前一种情况下,您不需要调整多重性的 P 值。在后一种情况下,您应该这样做。

为什么要以比较次数为条件?允许基于算法的决策过程提供关于误报错误率的长期保证。

为什么您不想以比较次数为条件?允许 P 值代表感兴趣的特定实验结果中的证据,而不会因涉及其他数据的其他比较的存在而被修改。

长期错误率是方法的属性,而证据是所考虑的特定数据集的属性。对多重性 P 值的常客调整认为方法属性比 P 值的证据意义更重要。我认为,产生相关数据的方法的性能是从证据进行推断时有用的信息,但它应该作为单独的信息保存,而不是通过P值的“校正”。将其纳入证据就是以一种将推理责任从分析师身上移开的方式修改证据。