为什么多次测试很重要?

机器算法验证 假设检验 统计学意义 多重比较 错误
2022-04-09 08:28:11

我正在学习多重测试,我很好奇它为什么重要?

我了解多个测试问题背后的数学,例如,我了解诸如类的东西,其中指的是家庭错误率,指的是假设数,而是指显着性水平。但是,我不了解多个测试问题背后的统计思想,也不知道它为什么重要。FWERmαFWERmα

让我详细说明一下。关于多重检验结果的一个常见示例是考虑一项研究,其中我们有显着性水平上分别测试每个假设,并拒绝我们在其自己的测试中拒绝的所有零假设。即使所有零假设都是正确的,我们也会拒绝假设并在预期中Type)。文献(例如第 13 章,R 统计学习简介,Tibshirani 等人)使用这个例子来论证多重测试问题。我认为文献隐含地假设制造型-10,0000.0510,00050050010.05×10,0005001错误对于使这个论点有效是不好的。

让我们考虑另一个例子。考虑独立研究人员测试他们自己的假设并发表积极的结果。形式上,每个研究人员都是完全独立于其他人的,即他们从事不同的项目,有不同的假设,做不同的实验。假设所有研究人员都是诚实的,他们在实验前提出他们的原假设,以显着性水平检验他们的假设,当且仅当测试拒绝原假设时才公布他们的结果。如果所有零假设都是正确的,那么将有错误拒绝(),即类型错误,在预期中。然后我们会看到10,0000.055000.05×10,0005001500篇假阳性论文。

似乎第一个示例和第二个示例之间没有区别。它们具有相同的假设(所有零假设都是正确的)并且它们具有相同的结果(将有类型错误)。然而,我认为第二个例子正是科学界的运作方式:独立研究人员进行自己的研究并发表积极的结果。在第二个示例中似乎没有任何问题。那么为什么第一个例子不好,而第二个例子还不错呢?这两个例子有什么区别?10,0005001

1个回答

这是一个有趣的问题,我也想过这个问题。我目前的想法是:假设检验必须在更广泛的研究背景下进行。一般来说,检验一个假设并不能最终解决一个感兴趣的科学问题。如果仅根据可能对社会或个体患者产生严重后果的重要性做出决定并认为科学陈述是理所当然的,那么 5% 的 I 类错误概率肯定是令人担忧的高。显着性检验还有许多其他问题(例如,具有足够大样本的检验很容易证明是显着的,这在理论上甚至是“正确的”,如果零假设不完全正确,但效果太小以至于它们不问题,或者至少基于一个小的 p 值被过度解释)。

鉴于这一切,我认为这两种情况之间的区别是这样的。人们应该希望(并检查!)“独立研究人员”测试具有真正实质性兴趣的假设,并以背景信息和全面的主题考虑为后盾。假设检验绝不应该是声称某事所依据的唯一“信息”;即使使用相同的数据、影响大小和可能违反模型假设、数据质量问题等,也应该得到解决,即使这样,也应该清楚,比如说,p=0.035这不是很强烈的迹象表明正在发生任何有意义的事情。最终,人们可以说这些特定数据不能提供反对零假设的证据,或者它们提供的证据更弱或更强(确实请记住,如果不是每周,每月都会发表数千篇带有测试的科学论文,并且一定“错误意义”的数量是预期的),并对所有进一步的数据分析结果进行额外的仔细解释。

在一项对 10,000 个假设进行测试的单一研究中,很可能除了运行测试之外,每个测试都没有更多的背景和详细分析。也有可能会选择性地报告显着或“最显着”的结果,这意味着某事被报告为有意义但实际上并不重要的概率远高于显着性水平。所以我确实认为在这种情况下进行多次测试调整比在进行更彻底的分析并考虑更多信息的情况下更合适。除此之外,当然可以普遍讨论在所有这些情况下进行显着性检验的利弊。