从 NHST 和 p 值的缺陷中学习

机器算法验证 假设检验 p 值
2022-03-31 08:33:12

我一直在阅读很多关于零假设显着性检验 (NHST) 和 p 值的问题:复制危机、再现性问题、p-hacking、统计功效低的问题、对 p 值的误解等。

然而,我很难将这些担忧真正付诸行动,尤其是关于 NHST 的缺陷。我只是觉得在统计和临床意义都起作用的生物医学研究中,认为 NHST 的问题并不是什么大问题是合理的。

假设我进行了一项随机临床试验,旨在调查一种未命名药物的效果。我把它比作安慰剂。我的主要兴趣是一些连续变量,比如 VAS 量表或收缩压的疼痛。我在药物/安慰剂给药后测量它。

让我们将 p-hacking、数据挖掘所有其他问题放在一边,并说与基线值相比,而在另一组中,药物效应为 \mu_2。两组的 SD 相同。μ1μ2

  1. 我进行测试。声明我得到的 p 值为 0.0001。根据 NHST,我拒绝 H0 并得出结论,这是由定义的。无关,定义的是胡说八道,它可能是任何东西,等等。但是如果我发现平均差异,例如疼痛,使用 0.5 厘米的 VAS 我可以得出结论,我的结果在临床上是微不足道的,因为十几项研究表明患者只能注意到 VAS 量表的 1 厘米变化。那么这是否可以消除 NHST 的问题?H0μ1=μ2μ1μ2H1H1H1

  2. 如果我不进行显着性检验,比较这些组的最合适方法是什么?一个明显的答案是使用贝叶斯框架,但目前我更喜欢其他方式。自举或似然比测试会起作用吗?在这种简单的情况下,这些是如何通过平均比较来执行的?我知道我应该估计不确定性,而不是提出二元是/否答案,从而导致 p 值谬误。我只是不清楚如何实现它。

2个回答

即使您确实从显着性检验中获得了显着的 p 值,您也应该通过为其构建置信区间来查看影响的大小。

情况1:

在检查置信区间时,例如,如果您注意到该区间完全低于构成临床重要效应的预定义阈值,您将不得不得出结论,虽然潜在人群中可能存在影响,但其幅度非常小从临床的角度来看,它可能没有任何实用价值。

案例2

如果该区间确实包括您对构成临床重要效应的预定义阈值,您将无法排除您对潜在人群感兴趣的效应可能大到足以具有实际重要性的可能性。

————-/————-

目前正在推动完全用置信区间替换显着性检验,并且在使用置信区间时,将它们解释为兼容性区间

通常,在实践中,人们只会进行显着性检验,而不报告他们检验的效果的置信区间。当他们确实报告了置信区间时,他们可能并不总是清楚地知道什么构成了临床(或实际上)相关的效应量。因此,当相应的 p 值显着时,他们可能很乐意宣布该效应具有统计学意义(即,它可能存在于基础人群中),而不用担心其临床(或实际)相关性。

对于那些完全依赖于报告 p 值来进行显着性检验的人来说,当 p 值不显着时,他们总是会得出结论缺乏影响的危险,而另一种解释可能是存在影响,但研究的动力不足,无法检测到它。在这些情况下,置信区间会更容易解释。

一般来说,真正的问题是人们总是希望从一次性研究中获得明确的结果,而这些研究通常是动力不足的。因此,当他们发现不确定的结果时,他们会通过使用命运多舛的术语(例如“结果趋向于统计显着性”等)来使结果更具决定性。

因此,我想说您可以通过始终报告您测试的效果的置信区间来改进您当前的做法(代替或作为显着性测试的补充)。

我将把你的问题稍微改变为“患者只能注意到超过 1 厘米的变化”(这使得 null 成为一个封闭集,但对于开放集来说更复杂的论点成立)。你的推理并没有解决这个问题,因为你真正想要测试的是而不是,所以 NHST 的标准问题将用于假设|μ0μ1|1cmμo=μ1|μ0μ1|1cm

无论如何,几乎可以肯定的假设检验可以在任何足够大的样本中解决这些问题。将您的显着性水平设为 for其中是样本大小,然后在任何足够大的样本中,当它为假时在它以概率一为真。假设也是如此。几乎可以肯定假设检验对于可选停止、有限多次多重比较和发表偏倚是稳健的。它也可以用于模型选择。我在一篇名为“几乎可以肯定的假设检验和杰弗里斯-林德利悖论的解决”的论文中写到了这一点。npp>1nμo=μ1μo=μ1|μ0μ1|1cm