一家心理学杂志禁止使用 p 值和置信区间;停止使用它们确实明智吗?

机器算法验证 假设检验 置信区间 p 值 规模效应 心理学
2022-02-07 01:26:12

2015 年 2 月 25 日,《基础与应用社会心理学》杂志 发表社论,禁止值和置信区间。p

具体来说,他们说(格式和重点是我的):

  • [...] 在发表之前,作者必须删除 NHSTP [零假设显着性检验程序] 的所有痕迹(值、值、关于“显着”差异或缺乏差异的陈述, 等等)。ptF

  • 类似于 NHSTP 如何未能提供零假设的概率,而零假设的概率需要提供一个强有力的理由来拒绝它,置信区间不能提供一个强有力的理由来得出结论,感兴趣的总体参数可能在规定范围内间隔。因此,置信区间也被 BASP 禁止。

  • [...] 关于贝叶斯程序,我们保留逐案判断的权利,因此 BASP 既不要求也不禁止贝叶斯程序。

  • [...] 是否需要任何推论统计程序?--[...] 但是,BASP 将需要强大的描述性统计数据,包括影响大小。

值的问题和滥用已经有很多关于 CV 的优秀讨论可以通过浏览 p-value 标签找到。值的批评通常与报告感兴趣参数的置信区间的建议同时出现。例如,在这个很有争议的答案中,@gung 建议报告效应大小及其周围的置信区间。但是这本杂志也禁止置信区间。pp

值、置信区间和显着/不显着二分法的“传统”方法相比,这种呈现数据和实验结果的方法有哪些优点和缺点?对这项禁令的反应似乎大多是负面的。那么有什么缺点呢?美国统计协会甚至对这项禁令发表了简短的令人沮丧的评论,称“这项政策可能有其自身的负面后果”。这些负面后果会是什么?p

或者正如@whuber 建议的那样,这种方法是否应该被普遍提倡为定量研究的范式?如果没有,为什么不呢?

PS。请注意,我的问题与禁令本身无关这是关于建议的方法。我也不是在问常客与贝叶斯推理。社论对贝叶斯方法也持否定态度。所以它本质上是关于使用统计数据而不是根本不使用统计数据。


其他讨论:redditGelman

4个回答

OP 链接到的当前 2015 年社论的第一句话是:

基础与应用社会心理学 (BASP) 2014 社论 *强调*零假设显着性检验程序 (NHSTP) 无效...

(我的重点)

换句话说,对于编辑来说,“零假设显着性检验”无效是一个已经证明的科学事实,2014年的社论只是强调这一点,而目前的2015年社论只是实现了这一事实。

NHSTP 的滥用(甚至是恶意使用)确实得到了很好的讨论和记录。在人类历史上,“事情被禁止”并非闻所未闻,因为人们发现,说到底,它们被滥用而不是被善用(但我们不应该进行统计测试吗?)。它可以是“次优”的解决方案,减少平均而言(推论统计)带来的损失,而不是收益,因此我们预测(推论统计)它在未来也将是有害的。

但是在上述第一句话的措辞背后透露出的热情,使得这看起来 - 确切地说,作为一个狂热的方法,而不是一个冷静的决定砍掉倾向于偷而不是提供的手。如果您阅读上述引用中提到的一年前的社论(DOI:10.1080/01973533.2014.865505),您会发现这只是新编辑重新调整期刊政策的一部分。

向下滚动社论,他们写道

...相反,我们认为 p<.05 条太容易通过,有时会成为低质量研究的借口。

因此,看起来他们与他们的学科相关的结论是,无效假设被“过于频繁地”拒绝,因此所谓的发现可能会获得虚假的统计意义。第一句话中的“无效”格言不同。

所以,要回答这个问题,很明显,对于期刊的编辑来说,他们的决定不仅是明智的,而且实施起来已经晚了:他们似乎认为他们删掉了哪些统计数据已经变得有害,保留了有益的部分——他们似乎不相信这里有什么东西需要“等价物”代替。

从认识论的角度来看,这是一个社会科学学者部分撤回通过使用定量方法使他们的学科在方法和结果上更加客观的尝试,因为他们最终得出了结论(如何?) ,这种尝试创造了“坏多于好”。我想说这是一件非常重要的事情,原则上可能发生,并且需要多年的工作才能“排除合理怀疑”来证明它并真正帮助您的纪律。但仅仅发表一两篇社论和论文(推论统计)很可能只会引发一场内战。

2015 年社论的最后一句话是:

我们希望并预计,禁止 NHSTP 将通过将作者从 NHSTP 思维的僵化结构中解放出来,从而提高提交手稿的质量,从而消除创造性思维的重要障碍。NHSTP 几十年来一直主导着心理学。我们希望通过实施第一个 NHSTP 禁令,我们可以证明心理学不需要 NHSTP 的拐杖,其他期刊也会效仿。

我觉得禁止假设检验是一个好主意,除了一些选择的“存在”假设,例如测试没有超感官知觉的零假设,所有人都需要证明有证据证明 ESP 存在是非随机的. 但我认为该杂志忽略了这一点,即心理学研究不佳的主要驱动因素是使用阈值P-价值观。心理学和大多数其他领域已经证明,大量的游戏继续到达P<0.05. 这包括假设替换、删除观察和子集数据。应该首先禁止的是门槛。

禁止置信区间也是过分的,但不是因为其他人所说的原因。仅当人们将置信区间误解为贝叶斯可信区间时(对于合适的非信息先验),置信区间才有用。但它们仍然有用。他们确切的常客解释只会导致混乱,这一事实意味着我们需要“摆脱道奇”并去贝叶斯或似然学派。但是通过误解良好的旧置信限可以获得有用的结果。

可惜期刊的编辑误解了贝叶斯统计,不知道纯似然推理的存在。他们正在寻找的东西可以很容易地通过贝叶斯后验分布使用稍微怀疑的先验来提供。

我认为这种方法是为了解决社会心理学无法复制许多以前发表的“重大发现”的问题。

它的缺点是:

  1. 它没有解决导致虚假效应的许多因素。例如,

    • A) 当效应量大到足以引起人们的兴趣时,人们仍然可以偷看他们的数据并停止进行他们的研究。

    • B) 大效应量在功率的回顾性评估中似乎仍然具有较大的功率。

    • C)人们仍然会寻找有趣和大的影响(在实验中测试一堆假设,然后报告弹出的假设)或

    • D) 假装一直都预料到会出现意想不到的怪异效果。

    不应该先努力解决这些问题吗?

  2. 作为一个向前发展的领域,它将使对过去发现的回顾变得非常糟糕。没有办法定量评估不同研究的可信度。如果每家期刊都采用这种方法,那么当完全不清楚 X 的可信度时,就会有一群社会科学家说有 X 的证据,而科学家们会争论如何解释已发表的效果或争论它是否重要或值得谈论。这不就是统计的意义吗?提供一致的方法来评估数字。在我看来,如果这种新方法被广泛实施,将会造成混乱。

  3. 此更改不鼓励研究人员提交具有小效应大小的研究结果,因此它并没有真正解决文件抽屉效应(或者他们是否会发布具有大 n 的结果而不管效应大小?)。如果我们公布了精心设计的研究的所有结果,那么即使个别研究结果的可信度可能不确定,对提供统计分析的研究进行荟萃分析和评论将在识别真相方面做得更好。

我遇到了一个精彩的引述,它几乎支持同一点,但并不完全——因为它是一本教科书的开头段落,主要是关于常客统计和假设检验。

像作者这样的非统计学家普遍认为,如果你做了好的实验,就不需要统计。他们说得很对。[...] 当然,问题是很难进行良好的实验。大多数人都需要他们能得到的所有帮助,以防止他们自欺欺人,声称他们最喜欢的理论得到了证实,而这些观察并没有起到任何作用。处理显着性检验的那部分统计数据的主要功能是防止人们自欺欺人。从这个角度来看,显着性检验的作用是阻止人们发表实验,而不是鼓励他们。理想情况下,确实,显着性检验永远不应该出现在印刷品中,如果有的话,在初步阶段用于检测不充分的实验,

-- David Colquhoun,生物统计学讲座,1971