2015 年 2 月 25 日,《基础与应用社会心理学》杂志 发表社论,禁止值和置信区间。
具体来说,他们说(格式和重点是我的):
[...] 在发表之前,作者必须删除 NHSTP [零假设显着性检验程序] 的所有痕迹(值、、值、关于“显着”差异或缺乏差异的陈述, 等等)。
类似于 NHSTP 如何未能提供零假设的概率,而零假设的概率需要提供一个强有力的理由来拒绝它,置信区间不能提供一个强有力的理由来得出结论,感兴趣的总体参数可能在规定范围内间隔。因此,置信区间也被 BASP 禁止。
[...] 关于贝叶斯程序,我们保留逐案判断的权利,因此 BASP 既不要求也不禁止贝叶斯程序。
[...] 是否需要任何推论统计程序?--否[...] 但是,BASP 将需要强大的描述性统计数据,包括影响大小。
值的问题和滥用;已经有很多关于 CV 的优秀讨论可以通过浏览 p-value 标签找到。值的批评通常与报告感兴趣参数的置信区间的建议同时出现。例如,在这个很有争议的答案中,@gung 建议报告效应大小及其周围的置信区间。但是这本杂志也禁止置信区间。
值、置信区间和显着/不显着二分法的“传统”方法相比,这种呈现数据和实验结果的方法有哪些优点和缺点?对这项禁令的反应似乎大多是负面的。那么有什么缺点呢?美国统计协会甚至对这项禁令发表了简短的令人沮丧的评论,称“这项政策可能有其自身的负面后果”。这些负面后果会是什么?
或者正如@whuber 建议的那样,这种方法是否应该被普遍提倡为定量研究的范式?如果没有,为什么不呢?
PS。请注意,我的问题与禁令本身无关;这是关于建议的方法。我也不是在问常客与贝叶斯推理。社论对贝叶斯方法也持否定态度。所以它本质上是关于使用统计数据而不是根本不使用统计数据。