为什么较低的 p 值没有更多的证据来反对空值?约翰逊的论点 2011

机器算法验证 假设检验 统计学意义 p 值 哲学的
2022-02-03 00:48:14

Johansson (2011) 在“迎接不可能:p 值、证据和可能性”(这里也是期刊链接)中指出,降低p-值通常被认为是反对空值的更有力的证据。Johansson 暗示,如果他们的统计测试输出一个p-的价值0.01,而不是他们的统计测试输出一个p-的价值0.45. 约翰逊列举了四个原因p-value 不能用作反对 null 的证据:

  1. p在原假设下是均匀分布的,因此永远不能指示原假设的证据。
  2. p仅以零假设为条件,因此不适合量化证据,因为证据总是相对于证据支持或反对相对于另一个假设的假设。
  3. p指定获得证据的概率(假设为空),而不是证据的强度。
  4. p取决于未观察到的数据和主观意图,因此在证据解释的情况下,暗示观察到的数据的证据强度取决于未发生的事情和主观意图。

不幸的是,我无法从 Johansson 的文章中获得直观的理解。对我来说p-的价值0.01表示 null 为真的可能性小于 ap-的价值0.45. 为什么较低p-values 不是针对 null 的更强有力的证据?

4个回答

我个人对他的论点的评价:

  1. 在这里,他谈到了使用p作为 Null 的证据,而他的论点是p不能用作反对 Null 的证据。所以,我认为这个论点在很大程度上是无关紧要的。
  2. 我认为这是一种误解。渔民p测试强烈遵循波普尔的批判理性主义思想,即你不能支持一个理论,只能批评它。所以从这个意义上说,只有一个假设(Null),您只需检查您的数据是否符合它。
  3. 我不同意这里。这取决于检验统计量,但p通常是对 Null 的影响大小的转换。所以效果越高,p 值越低——所有其他条件都相同。当然,对于不同的数据集或假设,这不再有效。
  4. 我不确定我是否完全理解这句话,但据我所知,这不是一个问题p至于人们错误地使用它。p旨在进行长期频率解释,这是一个功能而不是错误。但你不能责怪p对于单人p价值作为他们假设的证据或仅发布的人p<.05.

在我看来,他关于使用似然比作为衡量证据的建议是一个很好的建议(但这里贝叶斯因子的概念更普遍),但在他提出它的背景下有点奇怪:首先他离开了费舍尔检验的理由,其中没有替代假设来计算似然比。p作为反对 Null 的证据是 Fisherian。因此,他混淆了费舍尔和内曼-皮尔森。其次,我们使用的大多数检验统计量是似然比的(函数),在这种情况下p是似然比的变换。正如Cosma Shalizi所说:

在给定大小的所有测试中s,具有最小未命中概率或最高功率的那个具有“说‘信号’的形式,如果 q(x)/p(x)>t(s),否则说“噪音”,”并且阈值ts. 数量q(x)/p(x)是似然比;Neyman-Pearson 引理说,为了最大化功率,如果它比噪声更有可能,我们应该说“信号”。

这里q(x)是状态“信号”下的密度,并且p(x)“噪声”状态下的密度。“足够可能”的衡量标准是P(q(X)/p(x)>tobsH0)这是p. 请注意,在正确的 Neyman-Pearson 测试中tobs被一个固定的t(s)这样P(q(X)/p(x)>t(s)H0)=α.

像约翰森这样的论点经常被回收的原因似乎与 P 值是针对零的证据的指标但不是证据的度量这一事实有关。证据的维度比任何单个数字都可以衡量的多,因此 P 值与证据之间的关系总有一些方面是人们难以理解的。

我已经回顾了 Johansson 在一篇论文中使用的许多论点,这些论点显示了 P 值和似然函数之间的关系,并因此得到了证据:http ://arxiv.org/abs/1311.0081 不幸的是,这篇论文现在被拒绝了三次,尽管它的论点和证据没有被驳倒。(对于持有像约翰逊的观点而不是错误的观点的裁判来说,这似乎是令人反感的。)

添加到@Momo 的好答案:

不要忘记多样性。给定许多独立的 p 值和稀疏的非平凡效应大小,最小的 p 值来自零值,概率趋于1随着假设数量的增加。所以如果你告诉我你的 p 值很小,我首先想知道的是你测试了多少假设。

约翰逊是在谈论来自两个不同实验的 p 值吗?如果是这样,比较 p 值可能就像比较苹果和羊排。如果实验“A”涉及大量样本,即使是很小的无关紧要的差异也可能具有统计学意义。如果实验“B”仅涉及少数样本,则重要差异可能在统计上不显着。更糟糕的是(这就是我说羊排而不是橙子的原因),鳞片可能完全无法比拟(一个是psi,另一个是kwh)。