解释接近 alpha 水平的 p 值

机器算法验证 假设检验 统计学意义 p 值
2022-03-26 01:46:31

如果 alpha 设置为 0.05,我遇到许多科学出版物说基于 0.05 < p 值 < 0.1 的 p 值存在“效应趋势”。另一方面,我有统计人员批评我这样做,因为只有“拒绝”或“不拒绝”。因此,区分 0.08 或 0.97 的 p 值是没有意义的。此外,一些统计学家批评我将 p 值报告为 p<0.05,因为它不精确。

我的问题是:如何处理不低于但接近我的 alpha 的 p 值?

4个回答

解释统计显着性有两种不同的方法——Fisher 方法和 Neyman-Pearson 方法。我们将这些混合在一起(Gerd Gigerenzer 称之为“混账方法”)。经常教授和讨论的统计显着性检验 [Edit, n italics]似乎没有意义的原因是,基本上,它没有意义。

Neyman-Pearson 说你选择一个截止值并使用它。它小于截止值(例如,0.05),或者不是。没有其他信息可以传达。在 NP 中,0.08 和 0.97 是相同的。

费舍尔说您采用 p 值并将其视为存在影响的证据水平。<0.2 是一些证据,但它很弱;<0.1 好一点,但仍然有点弱。<0.05 是 Fisher 所说的通常足够好(但他也写道,应该根据情况改变自己的显着性水平,没有人这样做)。

要么报告确切的显着性水平并适当地解释它。或使用 0.05。不要做这种 0.10>p>0.05 的废话。

您的 p 值提供了一些证据。这不是很好的证据,但也不是没有证据。当可能是一个答案时,您不应该试图说“是”或“否”。

另外,人们常说他们0.06的p值是“接近统计显着性”。没有人说它是“远离显着性”或他们的 0.04 的 p 值是“接近不显着性”。

我还将补充 Jeremy Miles 的回答,该回答提出了一些有效的观点。(我最初写道,“我不同意统计显着性检验似乎没有意义的原因是,本质上,它没有”,但杰里米同时使这一点更加精确。)

p 值具有明确定义的数学含义,即在给定原假设为真的情况下,检验统计量与在原假设下所观察到的值一样远或更远的概率。

现在在语言中,我们必然是分类的,所以我们没有用词来说明 0.064 的 p 值与 0.059 有何不同,但是我们可以谈论强、弱、没有证据反对H0在这里的意思是发生了一些事情,在H0会发生很少/很少/非常普遍。

如果我们想做出决定(比如继续工作,就好像H0是真的,或者不是真的,如果这两种可能性是唯一需要考虑的,即我们只在两个行动方案之间做出决定)当然我们需要决定有多小太小以至于不能坚持H0.

现在有诸如无处不在的约定α=0.05. 这在某种程度上是任意的,但您需要意识到在做出二元决策时指定这样的截止值是必要的- 否则不是(顺便说一句,这也适用于显着性测试的任何替代方案)。

p 值的语言解释没有数学基础,并且在某种程度上总是任意的,但再一次,语言是分类的,所以如果我们使用有限数量的不同措辞,我们会更加透明为它们定义明确的截止值。对于截止值带来的所有问题 - 例如,如果您将“非常弱证据”和“无证据”之间的截止值设置为 0.1,您将在语言上区分 0.99 和 0.101,但不能区分 0.101 和 0.103。这可能看起来不是特别合适,但不知何故在于问题的本质。

总的来说,你有一些自由,因为至少数学并不能决定你应该怎么说,但是当你坚持至少相当普遍接受和透明的标准时,你会表现得更专业。

因此,使用截止值为 0.05(或在某些领域为 0.01)的“拒绝/不拒绝”会大大减少信息,因此存在问题,但是人们不能指责您在遵守完善的规则时歪曲证据。那是东西。重要的是,如果要做出二元操作决策,您只需要真正使用这种二元区分。(决定“相信”H0或者在我看来,替代方案不是直接行动,无论如何我都不应该“相信”模型。)对于那些喜欢精确度的人来说,只能说明精确的 p 值。

使用“证据语言”也被普遍接受,尽管在所有地方都没有一致地处理边界线。我不认为你可以通过使用 0.01/0.05/0.1 作为截止点来表示有“强”/“一些”/“弱”/“没有”证据反对H0,但我见过其他人。还要记住,分类在某种程度上是任意的,但在人们用语言交流时也是必要的。

也可以通过说“有一些证据作为p<0.05但实际上它真的很弱p=0.046。”甚至“在p=0.07我们只有微弱的证据反对H0但是对它的一些怀疑是有道理的,并且效果估计器(...)实际上是相当大的”(如果是的话,在主题意义上)。

一些措辞明显具有误导性,例如“趋向于意义”(因为(a)没有“趋向”和(b)作者含蓄地表明他们本来想要意义并愿意牺牲客观性来给人留下某种印象)或“接受”H0(因为接受通常被误解为认为它是真的,没有任何 p 值可以告诉你,而且“所有模型都是错误的”)。

PS:“接受”在质量控制应用中可能是适当的措辞,如果样品没有提供违反某些质量标准的证据(“接受抽样”),一批产品可能会被“接受”。α在此类(和其他一些)应用程序中,最好在考虑后果成本的情况下进行选择,而不是使用广泛的默认值。另请注意,Neyman-Pearson 设置的主要好处是通过错误概率来表征测试并启用最优性理论(在给定水平的情况下找到具有最佳功效的测试)。这并不意味着在实践中此类测试必须以二进制拒绝/不拒绝的方式专门解释;它不会“覆盖” p 值中更精确的信息。

我要补充 Jeremy Miles 的出色回答,说你如何对待你的 p 值也很大程度上取决于你想用它们做什么。他们名声不好(这是理所当然的),因为它们是“你的作品值得出版”和“你的作品是垃圾”之间的决定因素。

但是,您从 p 值中获取的信息取决于您对避免 I / II 类错误的程度的评估。

假设您正在对非常昂贵且副作用严重的抗癌药物进行大规模临床试验,最后您测试治疗组是否比对照组具有更好的生存能力。在医学背景下,当你非常确定药物是有益的时,你会被激励拒绝零假设“药物并不比安慰剂好”。像“我们的 p 值为 0.08,这并不重要,但看,有一种趋势”之类的东西不会在那里削减它。

如果你再举一个例子,你试图筛选一个大型数据集来寻找环境因素和微生物组之间的关联,你会发现 PM2.5 污染和Parabacteroides golsteinii的丰度之间存在反相关性。然后使用您的统计数据,您通常不会声称任何明确的结论,而只是说“嘿,这可能值得进一步调查”,换句话说,您的主要目标是假设生成。如果你在这里结束p=0.08(特别是如果您严格地纠正了多次测试),仍然值得一提的是,它在α=0.05水平,但也许我们应该看看。(在一个完美的世界里,对此感兴趣的人会设计一个专门的研究来看看是否有链接)。

换句话说,如果我们不将 p 值视为一个幻数,而是将其视为效应大小或证据权重的度量,则可以以更细微的方式看待它(包括例如在考虑到关于假设的其他现有证据)。

讨论中缺少的一个考虑因素是当您有多个测试时会出现问题。随着定义显着性的 p 值增加,一个或多个统计检验的 p 值低于该临界值的机会也随之增加,前提是零假设为真。虽然有控制这一点的标准方法,但这些方法很少应用于整个手稿。如果有选择,我会讨论 p 值 < 0.05 的结果并给出 p 值。我不会讨论非常显着的 p 值 < 0.0000001 与 0.037 的显着性有何不同。我不会因为想要讨论一个更重要的变量而改变我的显着性水平。最后,请考虑将 p 值作为估计值。可视化您的 p 值的 95% 置信区间。鉴于您的数据和样本量的可变性,您真的觉得您的 p 值 0.000001 精确到小数点后 6 位吗?您是否将所有均值和标准误差报告到该准确度?