效力不足的研究是否增加了误报的可能性?

机器算法验证 假设检验 统计能力 错误发现率
2022-02-03 09:06:33

这个问题在这里这里之前已经被问过,但我认为答案并没有直接解决这个问题。

效力不足的研究是否增加了误报的可能性?一些新闻文章做出了这种断言。例如_

低统计能力是个坏消​​息。动力不足的研究更有可能错过真正的效果,并且作为一个整体,它们更有可能包含更高比例的误报——也就是说,即使它们不是真实的,也达到统计学意义的效果。

据我了解,测试的力量可以通过以下方式增加:

  • 增加样本量
  • 具有更大的效应量
  • 增加显着性水平

假设我们不想改变显着性水平,我相信上面的引用是指改变样本量。但是,我看不出样本的减少应该如何增加误报的数量。简而言之,降低研究的功效会增加假阴性的机会,这回答了以下问题:

P(failure to reject H0|H0 is false)

相反,误报回应了这个问题:

P(reject H0|H0 is true)

两者都是不同的问题,因为条件不同。功率与假阴性(反向)相关,但与假阳性无关。我错过了什么吗?

4个回答

您是正确的,样本量会影响功效(即 1 - II 型错误),但不会影响 I 型错误。一个常见的误解是,当样本量较小时,这样的 p 值(正确解释)不太可靠或有效 - Friston 2012 年的非常有趣的文章对此有一个有趣的看法 [1]。

话虽这么说,动力不足的研究问题是真实的,我想说的是,这句话在很大程度上是正确的,只是措辞有点不准确。

功效不足研究的基本问题是,尽管假设检验中的假阳性率(I 型错误)是固定的,但真阳性率(功效)却下降了。因此,在动力不足的研究中,阳性(= 显着)结果不太可能是真正的阳性。这个想法在错误发现率[2]中表达,另见[3]。这似乎是引用所指的。

关于动力不足的研究经常提到的另一个问题是它们导致高估效应量。原因是 a) 如果功效较低,您对真实效果的估计将在其真实值附近变得更加可变(随机),并且 b) 当功效较低时,只有这些效果中最强的才会通过显着性过滤器。应该补充的是,这是一个报告问题,可以通过讨论和报告所有影响而不仅仅是显着影响来轻松解决。

最后,低功效研究的一个重要实际问题是低功效会增加统计问题(例如估计器的偏差)以及玩弄变量和类似 p-hacking 策略的诱惑。当功率较低时,使用这些“研究人员自由度”是最有效的,这毕竟会增加 I 类错误,例如,参见 [4]。

出于所有这些原因,我确实会对一项动力不足的研究持怀疑态度。

[1] Friston, K. (2012) 非统计审稿人的十大讽刺规则。神经影像学,61,1300-1310。

[2] https://en.wikipedia.org/wiki/False_discovery_rate

[3] 按钮,KS;约阿尼迪斯,JPA;莫克里兹,C.;诺塞克,文学士;弗林特,J。Robinson, ESJ & Munafo, MR (2013) 电源故障:为什么小样本会破坏神经科学的可靠性。纳特。Rev. Neurosci., 14, 365-376

[4] 西蒙斯,JP;Nelson, LD 和 Simonsohn, U. (2011) 假阳性心理学:数据收集和分析中未公开的灵活性允许呈现任何重要的东西。心理学科学,22,1359-1366。

根据您的看法,低功耗增加给定场景中的误报率。

考虑以下情况:研究人员测试一种治疗方法。如果测试结果微不足道,他们就会放弃它并进行下一次治疗。如果测试结果显着,他们就会发布它。让我们还考虑一下,研究人员将测试一些有效的治疗方法和一些无效的治疗方法。如果研究人员具有很高的权力(当然是指他们正在测试有效的治疗方法时的情况),那么一旦他们测试了有效的治疗方法,他们很可能会停止。另一方面,由于功率低,他们很可能会错过真正的治疗效果而转向其他治疗。他们测试的无效处理越多,他们就越有可能犯第一类错误(该研究人员没有考虑多重比较)。在低功率的情况下,他们预计会测试更多的无效处理,

你可能会说“好吧,这只是一个研究人员滥用多重比较!”。嗯,这可能是真的,但这也是这些天进行大量研究的方式。正是因为这些原因,我个人对已发表的作品几乎没有信心,除非它有足够大的样本量,以至于研究人员无法多次重复相同的实验。

低功率不会影响 Type-1 错误率,但会影响已发布结果中的 type-1 错误的比例。

原因是低功率会降低正确拒绝 H0(Type-2 错误)的机会,但不会减少错误拒绝 H0(Type-1 错误)的机会。

假设有两篇文献……一篇以非常低的功率进行——接近于零——另一篇以足够的功率进行。在这两种文献中,您都可以假设当 H0 为假时,您仍然会在某些时候得到误报(例如,对于 alpha = .05,为 5%)。假设研究人员的假设并不总是正确的,我们可以假设两种文献都应该有相似的 1 类错误数量,无论是否有效。正如其他人所说,这是因为 Type-1 错误率不受功率影响。

但是,在低功耗文献中,您也会遇到很多类型 2 错误。换句话说,低功率文献应该缺乏对 H0 的正确拒绝,使得 Type-1 错误在文献中的比例更大。在高功率文献中,您应该混合正确和不正确地拒绝 H0。

那么,低功耗会增加 Type-1 错误吗?不会。但是,它确实使找到真正的影响变得更加困难,使得类型 1 错误在已发表的发现中所占的比例更大。

除了其他答案之外,当样本量较小时,一项研究通常是动力不足的。有许多测试仅是渐近有效的,对于小 n 来说过于乐观或保守。

如果满足某些条件,其他测试仅对小样本有效,但在大样本(例如 t 检验)时变得更加稳健。

在这两种情况下,小样本量和未满足的假设都可能导致 I 类错误率增加。这两种情况经常发生,我认为你问题的真正答案是:不是在理论上,而是在实践中。