为了回应越来越多的统计学家和研究人员批评无效假设检验 (NHT) 对科学的效用是一种累积性努力,美国心理学会统计推断工作组避免完全禁止 NHT,而是建议研究人员除了来自 NHT 的 p 值之外,还报告效应大小。
然而,效应量不容易在研究中累积。元分析方法可以累积效应大小的分布,但效应大小通常计算为原始效应大小与给定实验数据中无法解释的“噪声”之间的比率,这意味着效应大小的分布不仅受不同研究之间效应的原始大小的变异性,以及不同研究中噪声表现的变异性。
相比之下,效应强度的另一种测量方法,似然比,既允许在逐个研究的基础上进行直观的解释,又可以很容易地在研究中汇总以进行荟萃分析。在每项研究中,可能性表示包含给定效应的模型相对于不包含该效应的模型的证据权重,通常可以报告为,例如,“计算 X 效应的似然比揭示的效果证据比其各自的无效证据多 8 倍”。此外,似然比还允许直观地表示空值发现的强度,因为低于 1 的似然比表示有利于空值的情况,并且取该值的倒数表示空值对效果的证据权重。尤其,似然比在数学上表示为两个模型的无法解释的方差的比率,它们仅在由效应解释的方差上有所不同,因此与效应大小在概念上并没有很大的偏差。另一方面,荟萃分析似然比的计算,代表跨研究效应的证据权重,只是对跨研究的似然比进行乘积的问题。
因此,我认为,对于寻求建立有利于效果/模型的总体证据程度的科学来说,似然比是要走的路。
在更细微的情况下,模型仅在效应的特定大小上是可区分的,在这种情况下,我们认为数据与效应参数值一致的区间的某种表示可能是首选。事实上,APA 工作组也建议报告置信区间,可以用于此目的,但我怀疑这也是一种考虑不周的方法。
可悲的是,置信区间经常被误解(学生和研究人员都这样)。我还担心它们在 NHT 中的使用能力(通过评估 CI 中包含零)只会进一步延迟 NHT 作为推理实践的灭绝。
相反,当理论只能通过效应的大小来区分时,我建议贝叶斯方法更合适,其中每个效应的先验分布由每个模型分别定义,并比较得到的后验分布。
这种用似然比替换 p 值、效应大小和置信区间以及必要时贝叶斯模型比较的方法是否足够?它是否遗漏了这里被诽谤的替代方案提供的一些必要的推理特征?