我个人对他的论点的评价:
- 在这里,他谈到了使用p作为 Null 的证据,而他的论点是p不能用作反对 Null 的证据。所以,我认为这个论点在很大程度上是无关紧要的。
- 我认为这是一种误解。渔民p测试强烈遵循波普尔的批判理性主义思想,即你不能支持一个理论,只能批评它。所以从这个意义上说,只有一个假设(Null),您只需检查您的数据是否符合它。
- 我不同意这里。这取决于检验统计量,但p通常是对 Null 的影响大小的转换。所以效果越高,p 值越低——所有其他条件都相同。当然,对于不同的数据集或假设,这不再有效。
- 我不确定我是否完全理解这句话,但据我所知,这不是一个问题p至于人们错误地使用它。p旨在进行长期频率解释,这是一个功能而不是错误。但你不能责怪p对于单人p价值作为他们假设的证据或仅发布的人p<.05.
在我看来,他关于使用似然比作为衡量证据的建议是一个很好的建议(但这里贝叶斯因子的概念更普遍),但在他提出它的背景下有点奇怪:首先他离开了费舍尔检验的理由,其中没有替代假设来计算似然比。但p作为反对 Null 的证据是 Fisherian。因此,他混淆了费舍尔和内曼-皮尔森。其次,我们使用的大多数检验统计量是似然比的(函数),在这种情况下p是似然比的变换。正如Cosma Shalizi所说:
在给定大小的所有测试中s,具有最小未命中概率或最高功率的那个具有“说‘信号’的形式,如果
q(x)/p(x)>t(s),否则说“噪音”,”并且阈值t
与s. 数量q(x)/p(x)是似然比;Neyman-Pearson 引理说,为了最大化功率,如果它比噪声更有可能,我们应该说“信号”。
这里q(x)是状态“信号”下的密度,并且p(x)“噪声”状态下的密度。“足够可能”的衡量标准是P(q(X)/p(x)>tobs∣H0)这是p. 请注意,在正确的 Neyman-Pearson 测试中tobs被一个固定的t(s)这样P(q(X)/p(x)>t(s)∣H0)=α.