为什么常客假设检验会偏向于拒绝具有足够大样本的原假设?

机器算法验证 假设检验 常客
2022-01-28 08:53:54

当我偶然发现这篇文章时,我正在阅读这篇关于贝叶斯因子的文章,以解决一个完全不相关的问题

使用贝叶斯因子的假设检验比常客假设检验更稳健,因为贝叶斯形式避免了模型选择偏差,评估有利于原假设的证据,包括模型不确定性,并允许比较非嵌套模型(当然模型必须具有相同的因变量)。此外,频率派显着性检验偏向于拒绝具有足够大样本量的原假设。[重点补充]

我之前在Karl Friston 2012 年在 NeuroImage 上发表的论文中看到过这种说法,他称之为经典推理的谬误

我很难找到一个真正的教学解释为什么这应该是真的。具体来说,我想知道:

  1. 为什么会发生这种情况
  2. 如何防范
  3. 失败了,如何检测它
2个回答

对问题 1 的回答:出现这种情况是因为p当真实差异恰好等于零时,值会随着样本量的增加而变得任意小与任意接近零相反,这是不现实的(请参阅 Nick Stauner 对 OP 的评论)。p-value 变得任意小,因为频率测试统计的误差通常随着样本量而减小,结果是所有差异在样本量足够大的情况下在任意水平上都是显着的Cosma Shalizi 对此有深入研究

对问题 2 的回答:在频率论假设检验框架内,人们可以通过不仅仅对检测差异进行推断来防止这种情况发生例如,人们可以将关于差异等价的推论结合起来,这样就不会偏袒(或混为一谈!)证明有效证据无效证据的举证责任没有效果的证据来自,例如:

  1. 两个单边等效测试(TOST),
  2. 统一最强大的等效性检验,和
  3. 等价的置信区间方法(即,如果12α检验统计量的 %CI先验定义的等价/相关范围内,则在α显着性水平)。

这些方法都共享的是关于什么影响大小构成相关差异的先验决定,以及根据差异 至少与被认为相关的差异构成的零假设。

因此,当样本量很大时,从差异检验和等价检验的组合推断可以防止您描述的偏差(二乘二表格显示了差异组合检验产生的四种可能性 - 实证主义零假设,H0+——和等价——否定的零假设,H0):

来自组合测试的差异测试和等价测试的四种可能性

注意左上象限:一个过强的测试是一个拒绝没有差异的原假设,但你也拒绝相关差异的原假设,所以是的,有差异,但你有一个先验决定你不关心因为它太小了。

问题 3 的答案:见 2 的答案。

如果原假设为真,则大样本频率检验不会表现出拒绝原假设的偏差。如果检验的假设是有效的并且原假设为真,那么大样本导致拒绝原假设的风险不会比小样本更大。如果 null 不正确,那么我们肯定会很乐意拒绝它,因此大样本比小样本更频繁地拒绝错误 null 的事实不是“偏差”,而是适当的行为。

对“压倒性实验”的恐惧是基于假设当零假设几乎是真的时拒绝它不是一件好事。但如果它几乎是真的,那么它实际上是假的!拒绝,但不要忽视(并清楚地报告)观察到的效果大小。它可能很小,因此不值得认真考虑,但必须在考虑来自假设检验之外的信息后做出关于该问题的决定。