较小的 p 值是否更有说服力?

机器算法验证 假设检验 统计学意义 置信区间 p 值 规模效应
2022-02-13 19:51:13

我一直在阅读值、类型 1 错误率、显着性水平、功效计算、效应大小和 Fisher 与 Neyman-Pearson 辩论。这让我感到有些不知所措。我为文字墙道歉,但我觉得有必要概述一下我目前对这些概念的理解,然后再讨论我的实际问题。p


从我收集到的信息来看,值只是对惊喜的衡量,即在假设原假设为真的情况下,获得结果的概率至少是极端的。费舍尔最初打算将其作为连续测量。p

在 Neyman-Pearson 框架中,您预先选择一个显着性水平并将其用作(任意)截止点。显着性水平等于类型 1 错误率。它由长期运行频率定义,即如果您要重复一个实验 1000 次并且原假设为真,那么由于抽样的可变性,其中大约 50 个实验会产生显着影响。通过选择显着性水平,我们以一定的概率保护自己免受这些误报的影响。值传统上不会出现在这个框架中。P

如果我们发现值为 0.01,这并不意味着类型 1 错误率为 0.01,类型 1 错误是先验的。我相信这是 Fisher 与 NP 辩论中的主要论点之一,因为值通常报告为 0.05*、0.01**、0.001***。这可能会误导人们说效果在某个值上是显着的,而不是在某个显着性值上。ppp

我也意识到值是样本量的函数。因此,它不能用作绝对测量值。在大样本实验中,小的值可能指向小的、不相关的影响。为了解决这个问题,在确定实验的样本量时执行功效/效应量计算非常重要。值告诉我们是否有影响,而不是影响有多大。沙利文 2012 年ppP

我的问题: 我如何调和值是衡量惊喜(更小 = 更有说服力)同时又不能被视为绝对测量的事实?p

我感到困惑的是:我们可以对一个小的值比一个大的 p 值更有信心吗?在费雪的意义上,我会说是的,我们更惊讶。在 NP 框架中,选择较小的显着性水平意味着我们正在更加强烈地防范误报。p

但另一方面,值取决于样本量。它们不是绝对的衡量标准。因此,我们不能简单地说 0.001593比 0.0439更重要。然而,这就是费舍尔的框架所暗示的:我们会对如此极端的价值感到更加惊讶。甚至有人讨论了“高度显着”一词是用词不当:将结果称为“高度显着”是错误的吗?p

我听说值只有在小于 0.0001 时才被认为是重要的,而在其他领域中,大约 0.01 的值已经被认为是非常重要的。p

相关问题:

4个回答

较小的值“更有说服力”吗?是的,他们当然是。p

在 Fisher 框架中,值是对反对原假设的证据数量的量化。证据或多或少有说服力;值越小,越有说服力。请注意,在任何具有固定样本大小的给定实验中,值与效应大小单调相关,正如@Scortchi 在他的回答 (+1) 中很好地指出的那样。所以较小的值对应于较大的效应大小;当然他们更有说服力!ppnpp

在 Neyman-Pearson 框架中,目标是获得二元决策:证据要么是“重要的”,要么不是。通过选择阈值,我们保证不会有超过的误报。请注意,不同的人在查看相同的数据时也许当我从一个我怀疑的领域阅读一篇论文时,我个人不会认为的结果是“显着的”,即使作者确实称它们为显着。我的个人可能设置为或其他值。显然报告的αααp=0.03α0.001p-value,它将能够说服更多持怀疑态度的读者!因此,再一次,较低的值更有说服力。p

当前的标准做法是结合 Fisher 和 Neyman-Pearson 方法:如果,则结果被称为“显着”,并且值被[精确或近似地]报告并用作说服力的衡量标准(通过标记它带有星号,使用“非常重要”等表达方式);如果,则结果称为“不显着”,仅此而已。p<αpp>α

这通常被称为“混合方法”,实际上它是混合的。有些人认为这种混合是不连贯的。我倾向于不同意。为什么同时做两件有效的事情是无效的?

进一步阅读:

我不知道较小的 p 值“更好”是什么意思,或者我们对它们“更有信心”是什么意思。但是,如果我们相信零假设,将 p 值作为衡量我们应该对数据有多惊讶的衡量标准,这似乎是足够合理的;p 值是您选择的检验统计量的单调函数在您感兴趣的方向上测量与原假设的差异,在从总体抽样或随机分配实验处理的相关程序下根据其属性对其进行校准。“显着性”已成为一个技术术语,指的是 p 值高于或低于某个指定值;因此,即使是那些对指定显着性水平和接受或拒绝假设不感兴趣的人也倾向于避免使用诸如“高度显着”之类的短语——仅仅遵守惯例。

关于 p 值对样本大小和效应大小的依赖性,可能会出现一些混淆,因为例如,对于认为硬币是公平的人来说,似乎 1000 次投掷中有 474 个正面应该比 10 个中的 2 个更令人惊讶——毕竟在前一种情况下,样本比例仅与 50% 略有偏差——但 p 值大致相同。但真假不承认度数;p 值按照它的要求做:通常参数的置信区间是真正想要评估测量效果的精确程度,以及其估计量级的实际或理论重要性。

感谢您的评论和建议的阅读材料。我有更多的时间来思考这个问题,我相信我已经设法隔离了我的主要困惑来源。

  • 最初,我认为将 p 值视为惊喜的衡量标准与声明它不是绝对衡量标准之间存在二分法。现在我意识到这些陈述不一定相互矛盾。与同一实验的其他假设结果相比,前者使我们或多或少对观察到的效果的极端性(甚至不相似?)充满信心。而后者只告诉我们,在一个实验中可能被认为是令人信服的 p 值,在另一个实验中可能根本不会令人印象深刻,例如,如果样本量不同。

  • 某些科学领域利用不同的强 p 值基线这一事实,可能反映了常见样本量(天文学、临床、心理学实验)的差异和/或试图在 p-价值。但后者是两者的错误混为一谈。

  • 重要性是基于在实验之前选择的 alpha 的是/否问题。因此,一个 p 值不能比另一个更重要,因为它们要么小于或大于所选的显着性水平。另一方面,较小的 p 值将比较大的 p 值更有说服力(对于类似的样本量/相同的实验,如我的第一点所述)。

  • 置信区间固有地传达了效果大小,使其成为防范上述问题的不错选择。

p 值不能作为意外的量度,因为它只是在 null 为真时的概率量度。如果 null 为真,则 p 的每个可能值都是等可能的。在决定拒绝 null 之前,不会对任何 p 值感到惊讶。一旦确定有影响,那么 p 值的含义就消失了。人们只是将其报告为相对较弱的归纳链中的一个链接,以证明拒绝或不拒绝 null 是合理的。但如果它被拒绝了,它实际上已经没有任何意义了。