与错误发现率和多次测试混淆(在 Colquhoun 2014 上)

机器算法验证 假设检验 统计学意义 p 值 多重比较 错误发现率
2022-01-23 22:36:48

我读过 David Colquhoun 的这篇很棒的论文:对错误发现率和 p 值的误解的调查(2014 年)。从本质上讲,他解释了为什么错误发现率(FDR)可以高达,即使我们用来控制 I 类错误。30%α=0.05

但是,如果我在多次测试的情况下应用 FDR 控制会发生什么,我仍然感到困惑。

比如说,我对许多变量中的每一个都进行了测试,并使用 Benjamini-Hochberg 程序很重要的变量我在问这个发现的 FDR 是什么?qq=0.049

我可以安全地假设,从长远来看,如果我定期进行此类分析,FDR 不是,而是低于,因为我使用了 Benjamini-Hochberg?这感觉不对,我会说值对应于 Colquhoun 论文中的值,他的推理也适用于这里,因此通过使用阈值,我可能会“自欺欺人”(如Colquhoun 说)在的情况下。但是,我试图更正式地解释它,但我失败了。30%5%qpq0.0530%

3个回答

碰巧的是,几周前我读到了同一篇论文。Colquhoun 在提出问题时在第 4 节中提到了多重比​​较(包括 Benjamini-Hochberg),但我发现他没有把问题说得足够清楚——所以看到你的困惑我并不感到惊讶。

要意识到的重要一点是,Colquhoun 是在谈论没有任何多重比较调整的情况。可以将 Colquhoun 的论文理解为采用了读者的观点:他本质上是在问他阅读科学文献时可以预期的错误发现率 (FDR),这意味着在没有进行多重比较调整时预期的 FDR 是多少。在一项研究(例如一篇论文)中运行多个统计测试时,可以考虑多重比较。但是没有人会针对论文之间的多重比较进行调整

如果您实际控制 FDR,例如通过遵循 Benjamini-Hochberg (BH) 程序,那么它将被控制。问题是在每项研究中单独运行 BH 程序并不能保证整体 FDR 控制。

我可以安全地假设,从长远来看,如果我定期进行此类分析,FDR 不是,而是低于,因为我使用了 Benjamini-Hochberg?30%5%

不。如果您在每篇论文中都使用 BH 程序,但在每篇论文中独立使用,那么您基本上可以将 BH 调整后的值解释为正常值,而 Colquhoun 所说的仍然适用。pp


一般说明

Colquhoun 关于预期 FDR 的问题很难给出答案,因为它取决于各种假设。例如,如果所有零假设都为真,那么 FDR 将为(即所有“重要”发现都是统计侥幸)。如果所有空值实际上都是假的,那么 FDR 将为零。所以 FDR 取决于真空值的比例,这是外部估计或猜测的东西,以便估计 FDR。数字的论据,但这一估计对假设高度敏感。100%30%

我认为这篇论文大多是合理的,但我不喜欢它使某些主张听起来过于大胆。例如摘要的第一句话是:

如果你用来暗示你已经发现了,那么你至少有的时间是错误的。p=0.0530%

这种表述过于强烈,实际上可能会产生误导。

Benjamini & Hochberg 以与我相同的方式定义错误发现率,即作为假阳性的阳性测试的比例。因此,如果您使用他们的程序进行多重比较,您可以正确控制 FDR。但值得注意的是,BH 方法有很多变体。Benjamini 在伯克利的研讨会在 Youtube 上,非常值得一看:

我不确定为什么@amoeba 会说“这个表述过于强烈,实际上可能会产生误导”。我很想知道他/她为什么这么认为。最有说服力的论点来自模拟 t 检验(第 6 节)。这模仿了几乎每个人在实践中所做的事情,它表明,如果您观察到 P 接近 0.047,并声称已经发现,那么您至少有 26% 的情况是错误的。会出什么问题?

当然,我不应该将其描述为最低限度。如果您假设有 50% 的机会产生真正的影响,这就是您所得到的。当然,如果您事先假设您的大多数假设都是正确的,那么您可以获得低于 26% 的 FDR,但是您能想象一下您在假设的基础上做出了发现的说法会引起多大的欢笑吗?你提前 90% 确定你的结论是正确的。26% 是最低 FDR,因为假设任何先验概率大于 0.5 都不是推理的合理基础。

鉴于预感在测试时经常站不住脚,很可能任何特定假设只有 10% 的可能性是正确的,在这种情况下,FDR 将是灾难性的 76%。

确实,所有这些都取决于零假设,即差异为零(所谓的零点)。其他选择可能会产生不同的结果。但是空点是几乎每个人在现实生活中使用的(尽管可能没有意识到)。此外,在我看来,零点是完全适合使用的东西。有时有人反对真正的差异永远不会完全为零。我不同意。我们想知道我们的结果是否与两组都接受相同治疗的情况有区别,因此真正的差异正好为零。如果我们确定输出数据与该视图不兼容,我们将继续估计效果大小。到那时,我们就该效果是否真实,是否大到足以在实践中发挥重要作用做出单独的判断。黛博拉·梅奥的博客


@amoeba 感谢您的回复。

Mayo 博客上的讨论主要是 Mayo 不同意我的观点,尽管她没有说明原因,至少对我来说)。Stephen Senn 正确地指出,如果你假设不同的先验分布,你会得到不同的答案。在我看来,这似乎只对主观贝叶斯主义者感兴趣。

这当然与日常练习无关,因为日常练习总是假设零点。正如我解释的那样,在我看来,这似乎是一件非常明智的事情。

许多专业统计学家得出的结论与我的大致相同。试试 Sellke & Berger 和 Valen Johnson(参考我的论文)。我的主张没有什么非常有争议的(或非常原始的)。

你的另一点,关于假设 0.5,在我看来根本不是一个假设。正如我上面所解释的,任何高于 0.5 的毛线在实践中都是不可接受的。低于 0.5 的任何值都会使错误发现率更高(例如,如果先验为 0.1,则为 76%)。因此,如果您在单个实验中观察到 P = 0.047,可以完全合理地说 26% 是您可以预期的最小错误发现率。


我一直在思考这个问题。我对 FDR 的定义与 Benjamini 的定义相同——阳性测试中错误的部分。但它适用于一个完全不同的问题,即单个测试的解释。事后看来,如果我选择一个不同的术语可能会更好。

在单个测试的情况下,B&H 保持 P 值不变,因此在我使用该术语的意义上,它并没有说明错误发现率。


你当然是对的。Benjamini & Hochberg 和其他从事多重比较研究的人的目标只是纠正第 1 类错误率。所以他们最终得到一个“正确的”P值。它与任何其他 P 值存在相同的问题。在我的最新论文中,我将名称从 FDR 更改为 False Positive Risk (FPR),试图避免这种误解。

我们还编写了一个网络应用程序来进行一些计算(在注意到很少有人下载我们提供的 R 脚本之后)。它位于https://davidcolquhoun.shinyapps.io/3-calcs-final/欢迎所有关于它的意见(请先阅读注释标签)。

PS 网络计算器现在有一个新的(我希望是永久的)http://fpr-calc.ucl.ac.uk/ Shiny.io 易于使用,但如果有人真正使用该应用程序,则非常昂贵:-(


我回到了这个讨论,现在我关于这个主题的第二篇论文即将发表在皇家学会开放科学上。它位于https://www.biorxiv.org/content/early/2017/08/07/144337

我意识到我在第一篇论文中犯的最大错误是使用了“错误发现率 (FDR)”这个术语。在新论文中,我更明确地说,我对多重比较问题只字未提。我只处理如何解释在单个无偏测试中观察到的 P 值的问题。

在最新版本中,我将结果的概率称为误报风险 (FPR) 而不是 FDR,以减少混淆。我还提倡反向贝叶斯方法——指定确保 FPR 为 5% 所需的先验概率。如果您观察到 P = 0.05,则为 0.87。换句话说,在进行实验以达到 5% 的 FPR(大多数人仍然错误地认为 p=0.05 的意思)之前,您必须几乎 (87%) 确定有真正的效果。

混乱的很大一部分是,尽管他在这里发表了相反的评论,但 Colquhoun 并没有像 Benjamini-Hochberg 那样定义罗斯福。不幸的是,Colquhoun 试图在没有首先检查以确保该术语尚未有一个完善的、不同的定义的情况下创造一个术语。更糟糕的是,Colquhoun 对 FDR 的定义与传统 FDR 经常被误解的方式完全相同。

在他的回答中,Colquhoun 将 FDR 定义为“阳性测试中错误的部分”。这类似于 Benjamini-Hochberg 定义的 FDP(错误发现比例,不要与错误发现率混淆)。Benjamini-Hochberg 将 FDR 定义为 FDP 的 EXPECTED VALUE,并有一个特殊规定,即当没有阳性测试时,FDP 被视为 0(当所有空值都为真时,FDR 恰好等于 FWER 的规定,并且避免由于被零除而导致的不可定义的值)。

为避免混淆,我建议不要担心 Colquhoun 论文中的细节,而只是牢记大局观(无数其他人也提出过),即 alpha 水平并不直接对应于显着测试的比例,即是 I 类错误(无论我们是在讨论单个研究中的重要测试还是多个研究组合中的重要测试)。该比例不仅取决于 alpha,还取决于功效以及经过检验的无效假设为真的比例。