在最近的 ASA 和其他关于 p 值的评论之后,不使用“统计显着”一词,提出分析结果的建议是什么?
例如,在进行 t 检验后,由于我的教学方式,我会说“p = 0.03,结果具有统计学意义”(假设我将显着性水平设置为 0.05)。我现在需要做的只是状态'p = 0.03'并且可能包括置信区间吗?
在最近的 ASA 和其他关于 p 值的评论之后,不使用“统计显着”一词,提出分析结果的建议是什么?
例如,在进行 t 检验后,由于我的教学方式,我会说“p = 0.03,结果具有统计学意义”(假设我将显着性水平设置为 0.05)。我现在需要做的只是状态'p = 0.03'并且可能包括置信区间吗?
我认为反对意见不仅仅是“统计显着”一词,而是滥用统计显着性检验的整个概念以及对具有(或不具有)统计显着性的结果的误解。
特别是,看看这六个陈述:
- P 值可以指示数据与指定统计模型的不兼容程度。
- P 值不衡量所研究假设为真的概率,或数据仅由随机机会产生的概率。
- 科学结论和业务或政策决策不应仅基于 p 值是否超过特定阈值。
- 正确的推断需要完整的报告和透明度。
- p 值或统计显着性不能衡量效应的大小或结果的重要性。
- 就其本身而言,p 值并不能很好地衡量模型或假设的证据。
因此,他们推荐了一种更全面的方法来进行和报告分析,而不仅仅是给出 ap 值,甚至是带有 CI 的 ap 值。我认为这是明智的,我认为它不应该引起争议。
现在,从他们的陈述到我自己的观点,我想说我们通常根本不应该提及 p 值。在许多情况下,它不提供有用的信息。几乎总是,我们预先知道 null 并不完全正确,而且我们经常知道它甚至不接近正确。
该怎么做?我强烈推荐 Robert Abelson 的 MAGIC 标准:量级、清晰度、通用性、趣味性和可信度。我在我的博客文章中对此进行了更多说明:Statistics 101: The MAGIC criteria。
(与 ASA 的不同,我的观点是有争议的。很多人不同意他们的观点)。
在我看来,更诚实但非技术性的措辞之一是:
在假设组间没有平均差异的情况下,获得的结果令人惊讶/出乎意料(p = 0.03)。
或者,允许格式,它可以扩展:
的两个正态分布组的情况下,所获得的差异将非常令人惊讶(p = 0.03) 。由于我们的数据与测试中使用的分布没有太大偏差,因此获得的结果表明两组的实际平均值不同,或者发生了罕见的抽样结果。
我同意Peter Flom的回答,但想补充一点关于在统计假设检验中使用术语“显着性”的问题。大多数对统计学感兴趣的假设检验都有一个零假设,它为某些“效果”设定零值,以及一个替代假设,为该“效果”设定一个非零(或正或负)值。正确解释,p 值是一种有利于替代假设的证据度量,相对于原假设(并且在规定的模型下)。它不是对在备择假设下规定为非零的影响大小的度量。
鉴于此,我的观点是,报告结果的最佳做法是参考“非零效应的重要证据”之类的内容。这里重要的是量词“显着”附加到“证据”,而不是“效果”。在我看来,说“有显着影响”之类的话是一种危险的速记,它会犯下量词移位谬误——用通俗的话来说,非零效应的显着证据与显着效应的证据截然不同。这种语言会导致读者误解 p 值的含义,并将统计意义与实际意义混为一谈。
这是我在已发表的论文和其他地方看到的对“重要性”一词最常见的滥用。普遍存在对“显着影响”或“统计显着影响”的引用,而不是更准确的“非零影响的显着证据”。
虽然这些东西显然在数学上是相关的。从广义上讲,真实效果越大,p 值在零附近的分布越集中。尽管存在这一事实,但通常不应将 p 值用作效果大小的量度。
总的来说,我同意《迈向超越“p < 0.05”的世界》社论中的以下陈述,这是美国统计学家特刊《21 世纪的统计推断:超越 p < 0.05的世界》的一部分:
您在本期中找不到的是一种解决方案,它可以雄伟地取代统计显着性所发挥的巨大作用。统计界尚未就在科学研究中使用统计推断达成一个简单的范式——事实上它可能永远不会这样做。
我们用两句话总结了我们的建议,总共七个词:接受不确定性。要体贴、开放和 谦虚。记住“原子”。
本期特刊的 43 篇论文的作者各自为您的问题提供了(不同的)答案。就个人而言,我真的很喜欢 Sander Greenland 给出的以下建议(从上面提到的社论中复制粘贴):
用测试中的p值替换任何关于结果统计显着性的陈述,并将p值表示为等式,而不是不等式。例如,如果p = 0.03,则“……具有统计显着性”将替换为“……具有p = 0.03”,“ p < 0.05”将替换为“ p = 0.03”。(一个例外:如果p太小以至于准确性变得非常差,那么反映该限制的不等式是适当的;例如,根据样本大小,来自正常或离散数据近似的p值通常甚至缺少 1 - p时的数字精度 < 0.0001。)同时,如果p = 0.25,则“……没有统计学意义”将替换为“……有 p = 0.25”,“ p > 0.05”将替换为“ p = 0.25”。
在测试目标参数时,为不止一种可能性提供p值。例如,如果您讨论来自原假设检验的p值,还要在该原p值旁边讨论另一个p值,以获得合理的替代参数可能性(理想情况下,用于计算研究提案中的功效)。再举一个例子:如果您进行等价检验,请显示等价区间的下限和上限的p值(用于基于两个单边检验的等价检验)。
显示目标研究参数的置信区间,但也用p值补充它们以检验相关假设(例如,用于研究设计或提案的零假设和替代假设的p值,如 #2 中所示)。置信区间仅清楚地显示区间内或区间外的内容(即,95% 区间仅清楚显示p > 0.05 或p ≤ 0.05 的内容),但对于争论中的关键假设,通常需要更多细节。[...]
用香农信息变换(s 值或意外)补充焦点p值p。这衡量了测试提供的信息量与测试假设(或模型)的对比:四舍五入后,s 值 s 显示了当掷硬币以获得相同数量的正面时需要看到的连续正面的数量反对投掷的信息是“公平的”(独立于“正面”概率为 1/2)而不是加载正面。例如,如果p = 0.03,这表示位信息与假设相反(就像在 5 次抛硬币的“公平”试验中得到 5 个正面);如果p = 0.25,这仅代表位与假设相反的信息(例如在“公平”试验中仅掷 2 次硬币就得到 2 个正面)。