我一直在阅读很多关于零假设显着性检验 (NHST) 和 p 值的问题:复制危机、再现性问题、p-hacking、统计功效低的问题、对 p 值的误解等。
然而,我很难将这些担忧真正付诸行动,尤其是关于 NHST 的缺陷。我只是觉得在统计和临床意义都起作用的生物医学研究中,认为 NHST 的问题并不是什么大问题是合理的。
假设我进行了一项随机临床试验,旨在调查一种未命名药物的效果。我把它比作安慰剂。我的主要兴趣是一些连续变量,比如 VAS 量表或收缩压的疼痛。我在药物/安慰剂给药后测量它。
让我们将 p-hacking、数据挖掘所有其他问题放在一边,并说与基线值相比,而在另一组中,药物效应为 \mu_2。两组的 SD 相同。
我进行测试。声明。我得到的 p 值为 0.0001。根据 NHST,我拒绝 H0 并得出结论,这是由定义的。无关,定义的是胡说八道,它可能是任何东西,等等。但是如果我发现平均差异,例如疼痛,使用 0.5 厘米的 VAS 我可以得出结论,我的结果在临床上是微不足道的,因为十几项研究表明患者只能注意到 VAS 量表的 1 厘米变化。那么这是否可以消除 NHST 的问题?
如果我不进行显着性检验,比较这些组的最合适方法是什么?一个明显的答案是使用贝叶斯框架,但目前我更喜欢其他方式。自举或似然比测试会起作用吗?在这种简单的情况下,这些是如何通过平均比较来执行的?我知道我应该估计不确定性,而不是提出二元是/否答案,从而导致 p 值谬误。我只是不清楚如何实现它。