个体研究人员应该如何看待错误发现率?

机器算法验证 统计学意义 p 值 发表偏倚 错误发现率
2022-01-30 01:06:57

我一直试图围绕错误发现率 (FDR) 应该如何告知个别研究人员的结论。例如,如果您的研究动力不足,您是否应该对结果进行打折,即使它们在时显着?注意:我所说的 FDR 是在总体检查多项研究结果的背景下,而不是作为多次测试校正的方法。α=.05

做出(可能是慷慨的)假设,即测试的假设实际上是正确的,FDR 是 I 型和 II 型错误率的函数,如下所示:.5

FDR=αα+1β.

理所当然的是,如果一项研究的效力不足,我们不应该相信结果,即使它们很重要,就像我们相信有充分效力的研究的结果一样。因此,正如一些统计学家所说,在某些情况下,“从长远来看”,如果我们遵循传统的指导方针,我们可能会发布许多错误的重要结果。如果一项研究的特征是持续不足的研究(例如,前十年与环境相互作用的文献),那么即使是重复的重要发现也可能令人怀疑。×

应用 R 包extrafontggplot2xkcd,我认为这可能有用地概念化为一个透视问题: 一个显着的结果...

不太确定...

有了这些信息,研究人员接下来应该做什么如果我猜测我正在研究的效果的大小应该是多少(因此根据我的样本量估计),我是否应该调整我的水平直到 FDR = .05?即使我的研究动力不足并将 FDR 的考虑留给文献的消费者,我水平上发布结果?1βαα=.05

我知道这是一个经常讨论的话题,无论是在这个网站上还是在统计文献中,但我似乎无法就这个问题找到一致的意见。


编辑:针对@amoeba 的评论,FDR 可以从标准 I 型/II 型错误率列联表中得出(请原谅它的丑陋):

|                            |Finding is significant |Finding is insignificant |
|:---------------------------|:----------------------|:------------------------|
|Finding is false in reality |alpha                  |1 - alpha                |
|Finding is true in reality  |1 - beta               |beta                     |

因此,如果我们看到一个重要的发现(第 1 列),它在现实中为假的可能性是该列总和的 alpha。

但是,是的,我们可以修改 FDR 的定义以反映给定假设为真的(先验)概率,尽管研究能力仍然起作用:(1β)

FDR=α(1prior)α(1prior)+(1β)prior

4个回答

为了汇总多项研究的结果,您应该考虑让您的结果可用于荟萃分析。元分析考虑研究的数据,或者至少是它的估计,模型研究效果,并通过从许多小型单一研究中形成某种大型虚拟研究来得出系统性结论。单独的值、虚构的先验和计划的功率不是荟萃分析的重要输入。p

相反,重要的是让所有研究都可以访问,而不管功率水平或显着结果。事实上,只发表重要结果而隐瞒不重要结果的坏习惯会导致发表偏见并破坏科学结果的整体记录。

因此,即使出版期刊没有询问这些细节,个人研究人员也应该以可重复的方式进行研究,保留所有记录并记录所有实验程序。他不应该太担心低功率。即使是非信息性结果(= 未拒绝零假设)也会为进一步研究添加更多估计量,只要人们能够提供足够质量的数据本身。

如果您尝试仅通过值和一些 FDR 考虑因素来汇总结果,那么您选择了错误的方法,因为当然具有更大样本量、更小方差、更好控制的混杂因素的研究比其他研究更可靠。然而,它们都产生值的最佳 FDR 程序永远无法弥补质量差异。ppp

如果我 [个人研究人员] 猜测我正在研究的效应的大小应该是 [...],我是否应该调整我水平直到 FDR = .05?即使我的研究动力不足并将 FDR 的考虑留给文献的消费者,我水平上发布结果?αα=.05

我绝对不会尝试调整水平以达到某个 FDR,α因为这非常困难:您不仅需要对功率有一个很好的估计,而且还需要对一些模糊定义的空值的普遍性有一个很好的估计(!)您认为自己的研究属于其中的研究群体。这几乎是不可能的。

另一方面,尽管我与@DavidColquhoun 就他论文中的一些具体主张进行了长时间的讨论,但我在某种程度上同意他的实际建议,因为并不是一个特别有力的证据。就个人而言,我已经学会认为它相对较弱,并且根本不相信许多取决于单个的已发表结果。真正令人信服的科学结果通常具有很小的,或者基于具有支持结论的几个实验(这样“组合”的值将再次很小)。p<0.05p0.05pp0.05p

因此,与其以某种特定的自动方式调整你的,我宁愿建议对你自己的发现保持普遍的怀疑。如果你知道你的研究动力不足,尤其如此。获取更多数据。考虑一个支持性分析。运行另一个实验。等等。α

这实际上是一个深刻的哲学问题。我自己也是一名研究人员,对此我考虑了一段时间。但在回答之前,让我们准确回顾一下错误发现率是多少。

FDR 与 P P 只是衡量说存在差异的概率,当根本没有差异并且不考虑功率时。另一方面,罗斯福将权力考虑在内。但是,为了计算 FDR,我们必须做出一个假设:我们收到真阳性结果的概率是多少?这是我们永远无法获得的东西,除非在高度人为的情况下。实际上,我最近在我举办的一次研讨会上谈到了这一点。你可以在这里找到幻灯片

这是 David Colquhoun关于该主题的论文中的一个数字:

卡尔库霍恩 2014

错误发现率的计算方法是将误报的数量除以真阳性和误报的总和(在示例中,495/(80+495) x 100% = 86%!

更多关于P

仔细看看我演讲的幻灯片。我讨论了 P 值来自分布的事实。这意味着您总是有机会发现误报。因此,统计显着性不应被视为绝对真理。我认为具有统计意义的东西应该被解释为,“嘿,这里可能有一些有趣的东西,我不确定,有人去仔细检查一下!” 因此,研究中可重复性的基本概念!

那么我们该怎么办? 好吧,关于上图和我对 P 和 FDR 的分析,有趣的一点是,我们能够获得清晰理解的唯一方法是通过 1) 可重复性和 2) 发布所有结果。这包括负面结果(即使负面结果难以解释)。但是,我们从结果中得出的结论必须是适当的。不幸的是,许多读者和研究人员并不完全理解 P 和 FDR 的概念。我认为适当地分析结果是读者的责任……这意味着负担最终落在了教育者的肩上。毕竟,如果“流行度”(见上图)为 0(在这种情况下,错误发现率为 100%),那么 0.000000001 的 P 值是没有意义的。

作为一名出版研究人员,请注意充分了解您的结果,并根据您的意愿提出强有力的声明。如果事实证明您的特定研究的 FDR 是 86%(如上面的示例),那么您应该非常小心您的解释。另一方面,如果 FDR 足够小以使您感到舒适……仍然要小心您的解释。

我希望这里的一切都很清楚。这是一个非常重要的概念,我很高兴你提出了讨论。如果您有任何问题/疑虑/等,请告诉我。

为了帮助理解这些关系,我创建了这张 FDR 图表,作为各种幂的先验概率的函数(alpha=0.05)。请注意此图,@Buckminster 的等式计算 P 小于 alpha 的所有结果的 FDR。如果您只考虑非常接近您在一项研究中观察到的 P 值的 P 值,则图表看起来会有所不同。