为什么从一开始就没有对所有实验应用多重假设校正?

机器算法验证 假设检验 多重比较 邦费罗尼 错误发现率
2022-02-09 10:04:54

我们知道,我们必须对基于单个数据集的实验应用 Benjamini Hochberg 式的多假设检验校正,以控制错误发现率,否则所有给出阳性结果的实验​​都可能是错误的。

但是,为什么我们不将同样的原则应用到从一开始的所有实验中,而不管数据来自哪里?

毕竟,超过一半的被认为“重要”的已发表科学结果现在被认为是错误的和不可复制的,没有理由不能轻易做到 100%。由于科学家只倾向于发表阳性结果,我们不知道阴性结果的数量,所以我们不知道我们发表的内容是否只是假阳性——在零假设下纯随机机会出现的阳性结果。同时,没有什么可以说多重假设检验校正背后的数学应该只适用于来自同一数据集的结果,而不适用于随着时间的推移获得的所有实验数据的结果。

整个科学似乎已经变成了一场基于虚假或弱假设的大捕鱼,那么我们该如何控制呢?

如果我们发布的所有结果都是独立的结果,而不对迄今为止进行的所有实验的多重假设检验进行任何校正,我们如何控制错误发现率?

是否可以在应用此类校正的情况下控制错误发现率?

3个回答

这在实践中显然是一场噩梦,但假设它可以做到:我们任命一个统计苏丹,每个运行假设检验的人都报告他们的原始数据p-对这个暴君的价值观。他执行某种全局(字面意思)多重比较校正,并以校正后的版本进行回复。

这会迎来科学和理性的黄金时代吗?不,可能不是。


让我们从考虑一对假设开始,如t-测试。我们测量两组的某些属性,并希望区分关于该属性的两个假设:
H0: The groups have the same mean.HA: The groups have different means.
在有限样本中,即使H0确实如此:测量误差和其他可变性来源可以推动个别值。然而H0假设在某种意义上是“无聊的”,研究人员通常关心避免“假阳性”情况,在这种情况下,他们声称发现了真正不存在的群体之间的差异。因此,我们仅在零假设下似乎不太可能的结果才称其为“显着”,并且按照惯例,该不太可能的阈值设置为 5%。

这适用于单个测试。现在假设您决定运行多个测试并愿意接受 5% 的错误接受机会H0每一个人。因此,通过足够的测试,您几乎肯定会开始犯错误,而且会犯很多错误。

各种多重更正方法旨在帮助您恢复到您已经选择容忍单个测试的标称错误率。他们这样做的方式略有不同。控制Family-Wise Error Rate的方法,例如BonferroniSidakHolm 程序,会说“您希望在单次测试中出错的几率为 5%,因此我们将确保您不会超过 5%在所有测试中出错的几率为 %。” 控制错误发现率的方法而是说“您显然可以接受一次测试最多 5% 的错误,因此我们将确保在进行多次测试时,您的“呼叫”错误率不超过 5%”。(看到不同?)


现在,假设您试图控制曾经运行过的所有假设检验的全族错误率。您本质上是在说您希望永远错误地拒绝任何零假设的机会<5%。这设置了一个不可能严格的阈值,推理实际上是无用的,但还有一个更紧迫的问题:您的全局校正意味着您正在测试绝对荒谬的“复合假设”,例如

H1:Drug XYZ changes T-cell count Grapes grow better in some fields Men and women eat different amounts of ice cream

通过错误发现率校正,数字问题不是那么严重,但在哲学上仍然是一团糟。相反,定义相关测试的“家族”是有意义的,例如基因组学研究期间的候选基因列表,或光谱分析期间的一组时间频率箱。为您的家庭量身定制一个特定的问题可以让您以直接的方式实际解释您的 I 型错误。例如,您可以从您自己的基因组数据中查看一组经过 FWER 校正的 p 值,然后说“这些基因中的任何一个都是假阳性的可能性小于 5%。” 这比一个模糊的保证要好得多,它涵盖了你不关心的人对你不关心的话题所做的推论。

这方面的翻盖是,他适合选择“家庭”是难题的,有点主观(都是一个家庭,或者我只考虑冲刺?),但你的问题应该得到通知,我不相信任何人几乎如此广泛地认真倡导定义家庭。


贝叶斯呢?

贝叶斯分析为这个问题提供了连贯的替代方案——如果你愿意稍微远离Frequentist Type I / Type II错误框架。我们从一些不置可否的事开始……嗯……一切。每次我们学习某些东西时,这些信息都会与先验信息相结合以生成后验分布,这反过来又成为我们下一次学习的先验信息。这为您提供了一个连贯的更新规则,您可以通过计算两个假设之间的贝叶斯因子来比较关于特定事物的不同假设。您大概可以分解出模型的大部分内容,这甚至不会使这变得特别繁重。

有一个持久的......模因贝叶斯方法不需要多重比较校正。不幸的是,后验概率只是常客(即关心 I/II 类错误的人)的另一个检验统计量。他们没有任何特殊的属性来控制这些类型的错误(他们为什么会这样?)因此,你回到了棘手的领域,但也许在稍微更有原则的基础上。

贝叶斯的反驳是我们应该专注于我们现在可以知道的东西,因此这些错误率并不那么重要。


关于再现性

您似乎在暗示不正确的多重比较校正是许多不正确/不可重现结果背后的原因。我的感觉是其他因素更有可能成为问题。一个明显的问题是出版压力导致人们避免真正强调他们的假设的实验(即糟糕的实验设计)。

例如,[在这个实验中](安进(Amgen)的 (ir)reproduciblity initative 6的一部分,结果证明小鼠在感兴趣的基因以外的基因中发生了突变。Andrew Gelman 也喜欢谈论分岔路的花园,其中研究人员根据数据选择(合理的)分析计划,但如果数据看起来不同,可能会进行其他分析。p- 值以类似于多重比较的方式,但之后更难纠正。明显不正确的分析也可能起作用,但我的感觉(和希望)是这种情况正在逐渐改善。

我认为你故意描绘了对统计产生的科学的悲观看法。事实上,在我看来,统计数据不仅仅是一组提供 p 值的工具。对于科学归纳过程中涉及的一些可能的影响,还有一种严谨、谨慎和警觉的状态……虽然在我看来,你所说的一切都是大致正确的,以下是我对为什么我们有一些保证的一些看法关于我们产生的知识:

  • 首先,一般来说,仅在ap值低于给定阈值的论点下不应该得出结论。

  • 其次,据我所知,“超过一半已发表的科学结果是错误的”的论点是相关且有趣的,但是是根据大约等于 0.05 的 p 值计算的(参见例如关于 p 值和错误发现率的混淆) . 对于较低的 p 值,效果远低于公布的效果,在实践中,获得远低于 0.05 的 p 值并不罕见。此外,很多时候一个给定的假设被几个子假设所证实,这再次降低了宣布的影响。

  • 第三,再现性问题是真实的,但也是统计学家必须通过识别和处理混杂效应、组设计来处理的问题……如果有专业知识和严谨性,这可以做得很好。

  • 最后,据我了解,原型统计研究必须或多或少地基于以下 5 个连续步骤:

    Formulate one or a few hypotheses
    Design the corresponding study
    Acquire the data
    Analyse the data
    Make conclusions about the above hypotheses (and only these ones)
    

    该一般准则阻止我们将钓鱼探险作为得出一般结论的工具。

总而言之,我想说您通过超阈值 p 值来保护我们免受不良科学结论的意图有点虚幻。我更愿意通过确保和鼓励警告和适当的分析来保护我们免受不良科学结论的影响(我想这就是为什么有这么多合格的人在这里帮助这个网站上的其他人的原因)。

是否可以在不应用此类校正的情况下控制错误发现率?

是的。这就是 p 值的阈值的作用:它将错误发现率设置为该阈值。从长远来看,在所有基于真零假设的测试中,只有100a百分比将低于a.

请记住,(频率论者)错误率根本不关心任何单个测试所测试的假设的任何概率,而是作为保证长期失败率的测试方法。多重比较的校正是另一种保证长期故障率的方法:一种用于构建包含多个测试的复合方法,以便保证复合的长期故障率保持不变。

如果您对 100 次测试进行一次实验并报告其中 5 次反对空值,从而声称您观察到了一些真实结果,那么没有人会留下深刻印象,因为平均而言,在 100 次真空值测试中,5% 的人会拒绝; 您采用的方法“进行 100 次测试并报告其中任何一个达到 5% 的阈值”,其失败率高于 5%。因此,您可以选择控制多重比较并报告例如 100 个测试中有 2 个的 p 值低于 (5 / 100 == 0.05) %。现在您采用的方法再次保证失败率(即使没有假设是错误的,但报告至少一个重要测试的错误)为 5%。

即FWE/Family-wise纠错控制全局错误率;如果你做n次测试,只有a如果你所有的测试都是真实的假设,那么你会发现一个显着的效果。也就是说,如果从字面上看,任何人曾经费心测试的每一个假设都是正确的,并且每个人总是在每项研究中进行 >1 次测试,并且每个人都应用了研究方面的 FWE 控制,那么 5% 的研究会报告显着的结果(所有个体的 5%测试在其原始的、未校正的阈值下将是显着的)。相反,如果每个人总是在每项研究中测试 100 个真实假设并且不应用 FEW,则报告显着效果的实验数量将超过 5% 的保证错误率。(与 FDR/错误检测率对比,这不是保证在对真实假设的多重检验研究中报告任何重要检验的比率的方法。)