似然比和贝叶斯模型比较是否为零假设检验提供了优越和充分的替代方案?

机器算法验证 贝叶斯 置信区间 规模效应 推理
2022-02-27 10:43:22

为了回应越来越多的统计学家和研究人员批评无效假设检验 (NHT) 对科学的效用是一种累积性努力,美国心理学会统计推断工作组避免完全禁止 NHT,而是建议研究人员除了来自 NHT 的 p 值之外,还报告效应大小。

然而,效应量不容易在研究中累积。元分析方法可以累积效应大小的分布,但效应大小通常计算为原始效应大小与给定实验数据中无法解释的“噪声”之间的比率,这意味着效应大小的分布不仅受不同研究之间效应的原始大小的变异性,以及不同研究中噪声表现的变异性。

相比之下,效应强度的另一种测量方法,似然比,既允许在逐个研究的基础上进行直观的解释,又可以很容易地在研究中汇总以进行荟萃分析。在每项研究中,可能性表示包含给定效应的模型相对于不包含该效应的模型的证据权重,通常可以报告为,例如,“计算 X 效应的似然比揭示的效果证据比其各自的无效证据多 8 倍”。此外,似然比还允许直观地表示空值发现的强度,因为低于 1 的似然比表示有利于空值的情况,并且取该值的倒数表示空值对效果的证据权重。尤其,似然比在数学上表示为两个模型的无法解释的方差的比率,它们仅在由效应解释的方差上有所不同,因此与效应大小在概念上并没有很大的偏差。另一方面,荟萃分析似然比的计算,代表跨研究效应的证据权重,只是对跨研究的似然比进行乘积的问题。

因此,我认为,对于寻求建立有利于效果/模型的总体证据程度的科学来说,似然比是要走的路。

在更细微的情况下,模型仅在效应的特定大小上是可区分的,在这种情况下,我们认为数据与效应参数值一致的区间的某种表示可能是首选。事实上,APA 工作组也建议报告置信区间,可以用于此目的,但我怀疑这也是一种考虑不周的方法。

可悲的是,置信区间经常被误解(学生和研究人员都这样)。我还担心它们在 NHT 中的使用能力(通过评估 CI 中包含零)只会进一步延迟 NHT 作为推理实践的灭绝。

相反,当理论只能通过效应的大小来区分时,我建议贝叶斯方法更合适,其中每个效应的先验分布由每个模型分别定义,并比较得到的后验分布。

这种用似然比替换 p 值、效应大小和置信区间以及必要时贝叶斯模型比较的方法是否足够?它是否遗漏了这里被诽谤的替代方案提供的一些必要的推理特征?

1个回答

贝叶斯方法的主要优点,至少对我作为心理学研究员来说是:

1) 让您积累支持无效的证据

2)规避顺序测试的理论和实践问题

3) 不容易因为 N 很大而拒绝 null(见前一点)

4) 更适合处理小效果(对于大效果,Frequentist 和 Bayesian 方法几乎总是一致的)

5)允许以一种可行的方式进行分层建模。例如,在多项式处理树模型等模型类中引入项目和参与者效应需要在贝叶斯框架中完成,否则计算时间会非常长。

6)让你“真正的”置信区间

7) 你需要三件事:数据的可能性、先验和概率。你从数据中得到的第一个,你弥补的第二个,第三个你根本不需要给定的比例。好吧,也许我夸大了一点;-)

总体而言,可以颠倒您的问题:这是否意味着经典的常客统计数据是不够的?我认为说“不”是一个过于严厉的判决。如果超出 p 值并查看效应大小、项目效应的可能性以及不断重复发现的结果(太多的单一实验论文发表!),大多数问题都可以在一定程度上避免。

但贝叶斯并非一切都那么容易。以非嵌套模型的模型选择为例。在这些情况下,先验非常重要,因为它们会极大地影响结果,而且有时您对想要使用的大多数模型都没有太多了解,以便让您的先验正确。另外,需要很长时间....

我为任何可能有兴趣深入研究贝叶斯的人留下了两份参考资料。

Lee 和 Wagenmakers的“认知科学贝叶斯图形建模课程”

Ntzoufras 的“使用 WinBUGS 进行贝叶斯建模”