这在实践中显然是一场噩梦,但假设它可以做到:我们任命一个统计苏丹,每个运行假设检验的人都报告他们的原始数据p-对这个暴君的价值观。他执行某种全局(字面意思)多重比较校正,并以校正后的版本进行回复。
这会迎来科学和理性的黄金时代吗?不,可能不是。
让我们从考虑一对假设开始,如t-测试。我们测量两组的某些属性,并希望区分关于该属性的两个假设:H0:HA: The groups have the same mean. The groups have different means.
在有限样本中,即使H0确实如此:测量误差和其他可变性来源可以推动个别值。然而H0假设在某种意义上是“无聊的”,研究人员通常关心避免“假阳性”情况,在这种情况下,他们声称发现了真正不存在的群体之间的差异。因此,我们仅在零假设下似乎不太可能的结果才称其为“显着”,并且按照惯例,该不太可能的阈值设置为 5%。
这适用于单个测试。现在假设您决定运行多个测试并愿意接受 5% 的错误接受机会H0每一个人。因此,通过足够的测试,您几乎肯定会开始犯错误,而且会犯很多错误。
各种多重更正方法旨在帮助您恢复到您已经选择容忍单个测试的标称错误率。他们这样做的方式略有不同。控制Family-Wise Error Rate的方法,例如Bonferroni、Sidak和Holm 程序,会说“您希望在单次测试中出错的几率为 5%,因此我们将确保您不会超过 5%在所有测试中出错的几率为 %。” 控制错误发现率的方法而是说“您显然可以接受一次测试最多 5% 的错误,因此我们将确保在进行多次测试时,您的“呼叫”错误率不超过 5%”。(看到不同?)
现在,假设您试图控制曾经运行过的所有假设检验的全族错误率。您本质上是在说您希望永远错误地拒绝任何零假设的机会<5%。这设置了一个不可能严格的阈值,推理实际上是无用的,但还有一个更紧迫的问题:您的全局校正意味着您正在测试绝对荒谬的“复合假设”,例如
H1:Drug XYZ changes T-cell count ∧Grapes grow better in some fields ∧…∧…∧…∧…∧Men and women eat different amounts of ice cream
通过错误发现率校正,数字问题不是那么严重,但在哲学上仍然是一团糟。相反,定义相关测试的“家族”是有意义的,例如基因组学研究期间的候选基因列表,或光谱分析期间的一组时间频率箱。为您的家庭量身定制一个特定的问题可以让您以直接的方式实际解释您的 I 型错误。例如,您可以从您自己的基因组数据中查看一组经过 FWER 校正的 p 值,然后说“这些基因中的任何一个都是假阳性的可能性小于 5%。” 这比一个模糊的保证要好得多,它涵盖了你不关心的人对你不关心的话题所做的推论。
这方面的翻盖是,他适合选择“家庭”是难题的,有点主观(都是一个家庭,或者我只考虑冲刺?),但你的问题应该得到通知,我不相信任何人几乎如此广泛地认真倡导定义家庭。
贝叶斯呢?
贝叶斯分析为这个问题提供了连贯的替代方案——如果你愿意稍微远离Frequentist Type I / Type II错误框架。我们从一些不置可否的事开始……嗯……一切。每次我们学习某些东西时,这些信息都会与先验信息相结合以生成后验分布,这反过来又成为我们下一次学习的先验信息。这为您提供了一个连贯的更新规则,您可以通过计算两个假设之间的贝叶斯因子来比较关于特定事物的不同假设。您大概可以分解出模型的大部分内容,这甚至不会使这变得特别繁重。
有一个持久的......模因贝叶斯方法不需要多重比较校正。不幸的是,后验概率只是常客(即关心 I/II 类错误的人)的另一个检验统计量。他们没有任何特殊的属性来控制这些类型的错误(他们为什么会这样?)因此,你回到了棘手的领域,但也许在稍微更有原则的基础上。
贝叶斯的反驳是我们应该专注于我们现在可以知道的东西,因此这些错误率并不那么重要。
关于再现性
您似乎在暗示不正确的多重比较校正是许多不正确/不可重现结果背后的原因。我的感觉是其他因素更有可能成为问题。一个明显的问题是出版压力导致人们避免真正强调他们的假设的实验(即糟糕的实验设计)。
例如,[在这个实验中](安进(Amgen)的 (ir)reproduciblity initative 6的一部分,结果证明小鼠在感兴趣的基因以外的基因中发生了突变。Andrew Gelman 也喜欢谈论分岔路的花园,其中研究人员根据数据选择(合理的)分析计划,但如果数据看起来不同,可能会进行其他分析。p- 值以类似于多重比较的方式,但之后更难纠正。明显不正确的分析也可能起作用,但我的感觉(和希望)是这种情况正在逐渐改善。