对问题 1 的回答:出现这种情况是因为p当真实差异恰好等于零时,值会随着样本量的增加而变得任意小与任意接近零相反,这是不现实的(请参阅 Nick Stauner 对 OP 的评论)。这p-value 变得任意小,因为频率测试统计的误差通常随着样本量而减小,结果是所有差异在样本量足够大的情况下在任意水平上都是显着的。Cosma Shalizi 对此有深入研究。
对问题 2 的回答:在频率论假设检验框架内,人们可以通过不仅仅对检测差异进行推断来防止这种情况发生。例如,人们可以将关于差异和等价的推论结合起来,这样就不会偏袒(或混为一谈!)证明有效证据与无效证据的举证责任。没有效果的证据来自,例如:
- 两个单边等效测试(TOST),
- 统一最强大的等效性检验,和
- 等价的置信区间方法(即,如果1−2α检验统计量的 %CI在先验定义的等价/相关范围内,则在α显着性水平)。
这些方法都共享的是关于什么影响大小构成相关差异的先验决定,以及根据差异 至少与被认为相关的差异构成的零假设。
因此,当样本量很大时,从差异检验和等价检验的组合推断可以防止您描述的偏差(二乘二表格显示了差异组合检验产生的四种可能性 - 实证主义零假设,H+0——和等价——否定的零假设,H−0):
注意左上象限:一个过强的测试是一个你拒绝没有差异的原假设,但你也拒绝相关差异的原假设,所以是的,有差异,但你有一个先验决定你不关心因为它太小了。
问题 3 的答案:见 2 的答案。