在@MichaelLew 的回答(+1)之后,我将观点改变为相反的观点;现在我认为p-值不应该被纠正。我已经修改了我的答案。
为了让讨论更生动,我将参考著名的 XKCD 漫画在哪里20果冻豆的颜色经过独立测试与痤疮有关,绿色果冻豆产量p<0.05; 具体而言,让我们假设它是p=0.02:

Fisher方法是考虑p-value 作为证据强度的量化,或者更确切地说是作为惊喜的衡量标准(“惊喜”)——我喜欢这个表达方式,并且发现它直观清晰,同时又相当精确。我们假设空值是真的,并量化我们观察到这样的结果应该有多惊讶。这产生了一个p-价值。在“混合”Fisher-Neyman-Pearson 方法中,如果我们的惊讶程度超过某个选定的惊讶阈值 (p<α) 然后我们另外称结果为“显着”;这允许控制第一类错误率。
重要的是,阈值应该代表我们之前的信念和期望。例如,“非凡的主张需要非凡的证据”:我们需要非常惊讶地相信例如千里眼的证据,因此想设置一个非常低的阈值。
在果冻豆的例子中,每个人p- 值反映了每个个体相关性的惊人程度。Bonferroni 校正替换α和α/k以控制总体 I 类错误率。在这个答案的第一个版本中,我认为我们也应该不那么惊讶(并且应该考虑我们的证据较少)p=0.02如果我们知道我们跑了绿色果冻豆20检验,因此 Fisher 的p-values 也应该替换为kp.
现在我认为这是错误的,并且p-值不应调整。
首先,让我们指出,要使混合方法保持一致,我们不可能同时调整两者,p-价值观和α临界点。只能调整一个或另一个。以下是为什么应该这样做的两个论据α.
考虑完全相同的果冻豆设置,但现在我们先验地预计绿色果冻豆可能与痤疮有关(例如,有人提出了具有此预测的理论)。那么我们会很高兴看到p=0.02并且不会对任何事情进行任何调整。但实验没有任何改变!如果p-value 是(每个单独实验的)令人惊讶的度量,然后p=0.02应该保持不变。我们的变化是什么α,这是很自然的,因为正如我上面所说,阈值总是以一种或另一种方式反映我们的假设和期望。
P-value 有一个明确的解释:它是在原假设下获得观察到的(甚至不太有利的)结果的概率。如果青豆和粉刺之间没有联系,那么这个概率是p=0.02. 将其替换为kp=20⋅0.02=0.4破坏了这种解释;现在这不再是任何事情的可能性了。此外,想象一下不是20颜色经过测试,但100. 然后kp=2, 大于1,显然不可能是概率。而减少α经过100仍然有意义。
就证据而言,绿色果冻豆与痤疮有关的“证据”被测量为p=0.02就是这样;根据情况(在这种情况下,根据执行测试的数量)会发生什么变化,这就是我们如何处理这些证据。
我应该强调,“我们如何对待证据”在费舍尔的框架中也非常不固定(参见这句名言)。当我这么说p-值最好不要调整,这并不意味着罗纳德·费舍尔爵士会看p=0.02对于绿色果冻豆,并认为这是一个令人信服的结果。我相信他仍然会对此保持警惕。
结论性比喻:摘樱桃的过程不会修改樱桃!它改变了我们对待这些樱桃的方式。