家庭方面的错误边界:在独立问题的不同研究中重复使用数据集会导致多个测试问题吗?

机器算法验证 假设检验 多重比较
2022-03-13 02:54:19

如果一组研究人员对给定的数据集进行多项(假设)测试,则有大量文献声称他们应该对多次测试(Bonferroni 等)使用某种形式的校正,即使测试是独立的。我的问题是:同样的逻辑是否适用于多个团队在同一数据集上测试假设?换一种说法——家庭错误计算的障碍是什么?研究人员是否应该仅限于重复使用数据集进行探索?

2个回答

我强烈不同意@fcoppens 从在一次调查中认识到多重假设校正的重要性到声称“根据相同的推理,如果多个团队执行这些测试,同样适用”。

毫无疑问,进行的研究越多,检验的假设越多,就会发生越多的 I 类错误。但我认为这里对“家庭错误”率的含义以及它们如何应用于实际科学工作存在混淆。

首先,请记住,多重检验校正通常出现在没有预先制定假设的事后比较中。当有一小部分预定义的假设时,是否需要相同的校正完全不清楚。

其次,单个出版物的“科学真理”并不取决于出版物中每个单独陈述的真实性。精心设计的研究从许多不同的角度处理一个整体的科学(而不是统计)假设,并将不同类型的结果放在一起来评估科学假设。每个单独的结果都可以通过统计测试进行评估。

然而,根据@fcoppens 的论点,如果即使其中一个单独的统计测试出现 I 类错误,也会导致“对‘科学真理’的错误信念”。这是完全错误的。

与单个统计检验的有效性相反,出版物中科学假设的“科学真理”通常来自不同类型证据的组合。坚持多种类型的证据使得科学假设的有效性对于不可避免地发生的个别错误具有稳健性。当我回顾我的 50 篇左右的科学出版物时,我很难找到任何像@fcoppens 似乎坚持的那样在每个细节上都如此完美的文章。然而,我同样很难找到任何科学的地方假设是完全错误的。不完整的,也许;当然,与该领域后来的发展无关。但在当时的科学知识状况下并没有“错”。

第三,该论点忽略了犯第二类错误的成本。II 型错误可能会关闭有前途的科学探究的整个领域。如果遵循@fcoppens 的建议,II 类错误率将大幅上升,从而损害科学事业。

最后,该建议在实践中是不可能遵循的。如果我分析一组公开可用的数据,我可能无法知道是否有其他人使用过它,或者出于什么目的。我无法纠正其他人的假设检验。正如我上面所说,我不应该这样做。

每当您“夸大第一类错误”时,都需要进行“多次测试”校正:例如,如果您执行两个测试,每个测试的置信水平,并且首先我们测试空对备选和第二个假设α=5%H0(1)H1(1)H0(2)H1(2)

然后我们知道,例如第一个假设的第一类错误是错误拒绝的概率,它是H0(1)α=5%

如果您执行这两个测试,那么两个测试中至少一个被错误拒绝的概率等于 1 减去两者都被接受的概率,因此其中,对于等于,因此至少有一个错误拒绝的第一类错误几乎翻了一番!1(1α)2α=5%9.75%

在统计假设检验中,只能通过拒绝原假设来找到替代假设的统计证据,拒绝原假设可以得出结论,即存在支持替代假设的证据(另请参阅如果我们未能拒绝零假设会发生什么?)。

因此,对空值的错误拒绝给了我们错误的证据,因此是对“科学真理”的错误信念。这就是为什么必须避免这种 I 型膨胀(I 型错误几乎翻倍)的原因;较高的第一类错误意味着更多的错误信念,即某事已得到科学证明因此,人们在家庭层面上“控制”了 Ierror 类型。

如果有一组研究人员进行多项测试,那么每次他们拒绝零假设时,他们都会得出结论,他们已经找到了科学真理的统计证据。然而,通过以上,许多5%这些结论中有一个是对“科学真理”的错误信念。

出于同样的原因,如果多个团队执行这些测试(在相同的数据上),情况也是如此。

显然,只有当我们团队处理相同的数据时,上述发现才成立那么当他们处理不同的样本时有什么不同呢?

为了解释这一点,让我们举一个简单且非常不切实际的例子。我们的零假设是总体服从正态分布,已知σ并且 null 声明H0:μ=0反对H1:μ0. 让我们采取显着性水平α=5%.

我们的样本(“数据”)只是一个观测值,所以当观测值时我们会拒绝空值o要么大于1.96σ或小于1.96σ.

我们犯第一类错误的概率为5%因为这可能是我们拒绝H0只是偶然,事实上,如果H0是真的(所以人口是正常的并且μ=0)然后有(与H0真的)一个机会o[1.96σ;1.96σ]。所以即使H0是真的,那么我们有可能对数据运气不好。

因此,如果我们使用相同的数据,那么测试的结论可能是基于一个“机会很渺茫”的样本。对于另一个示例,上下文是不同的。