围绕非显着效应的狭窄置信区间能否为无效提供证据?

机器算法验证 假设检验 统计学意义 置信区间
2022-03-12 16:03:14

假设不拒绝空值就意味着空值是真实的,这显然是错误的。但是在没有拒绝 null 并且相应的置信区间 (CI) 很窄并且以 0 为中心的情况下,这是否不能为 null 提供证据

我有两种想法:是的,在实践中,这将提供证据表明效果或多或少为 0。但是,在严格的假设检验框架中,无效效果似乎根本无法用于推理,它们相应的 CI 也是如此。那么当点估计值不显着时,CI 的含义是什么?它是否也无法用于推理,还是可以像前面的示例中那样用于量化无效的证据?

鼓励有学术参考的答案。

2个回答

简而言之:是的。

正如 Andy W 所写,得出的结论是参数等于指定值(在您的情况下,效应大小等于 0),这是一个等效测试的问题。

在您的情况下,这个狭窄的置信区间实际上可能表明效果实际上为零,这意味着可能会拒绝等价的原假设。显着等价于1α-level 通常由一个普通的12α-完全位于预先指定的等价区间内的置信区间。这个等价区间考虑到你可以忽略非常小的偏差,即这个等价区间内的所有效应大小都可以被认为实际上是等价的。(平等的统计检验是不可能的。)

请参阅 Stefan Wellek 的“Testing Statistical Hypotheses of Equivalence and Noninferiority”进一步阅读,这是关于这个问题的最全面的书。

空假设体现了“所有模型都是错误的,但有些是有用的”的含义。如果不按照字面意思和断章取义,它们可能是最有用的——也就是说,记住 null 的认知目的很重要。如果它可以被伪造,这是预期的目标,那么相比之下,替代方案变得更有用,尽管仍然相当缺乏信息。如果您拒绝空值,您是在说效果可能不为零(或者其他什么——空值假设也可以指定其他值进行伪造)……那么它是什么?

您计算的效应大小是总体参数的最佳点估计值。一般来说,高估或低估的机会应该同样好,但正如@Glen_b 的评论所暗示的那样,它是死角靶心的机会是无限小的。如果由于某种奇怪的命运转折(或通过构造——无论哪种方式,我认为我们是在假设性地说话?)你的估计直接落在0.0¯,这仍然没有太多证据表明参数不是置信区间内的不同值。置信区间的含义不会根据任何假设检验的显着性而改变,除非它可能以相关方式改变位置和宽度。

如果您不熟悉(模拟的)总体样本的效应量估计值是什么样的,而这些样本的原假设实际上是正确的(或者如果您还没有看到它,只是来这里进行一些统计娱乐),看看 Geoff Cumming 的舞蹈p价值观如果这些置信区间不够窄,不适合您的口味,我尝试使用随机生成的样本在 R 中模拟我自己的一些n=1M每个来自N(0,1). 我忘了设置种子,但是在完成这个答案之前设置x=c()并运行了x=append(x,replicate(500,cor(rnorm(999999),rnorm(999999))))尽可能多的次数,最终给了我 6000 个样本。这是分别使用hist(x,n=length(x)/100)的直方图和密度图:plot(density(x))

    

正如人们所预料的那样,有证据表明这些随机样本产生的各种非零效应实际上是零效应,并且这些估计值或多或少地正态分布在真实参数周围(skew(x)= -.005,kurtosis(x)= 2.85)。想象一下,你只知道从一个样本中的估计值n=1M,而不是真正的参数:为什么您希望该参数比您的估计值更接近零而不是进一步?您的置信区间可能包括空值,但空值实际上并不比在相反方向上与样本效应大小的等效距离值更合理,其他值可能比这更合理,尤其是您的点估计!

如果在实践中,你想证明一个效应或多或少为零,你需要定义你倾向于忽略多少。使用我模拟的这些巨大样本,我生成的最大震级估计是|r|=.004. 有更真实的样本n=999, 我发现的最大的1M样本是|r|=.14. 同样,残差是正态分布的,所以这些不太可能,但关键是它们并非不可信。

一般来说,CI 可能比 NHST 更适用于推理。它不仅代表了假设参数小到可以忽略不计的想法可能是多么糟糕。它代表了参数实际是什么的好主意。人们仍然可以决定这是否可以忽略不计,但也可以了解它的不可忽略程度。有关置信区间的进一步倡导,请参阅Cumming (2014 , 2013)

参考资料
- Cumming, G. (2013)。了解新的统计数据:效应量、置信区间和荟萃分析劳特利奇。
- 卡明,G.(2014 年)。新的统计数据:为什么以及如何。心理科学,25(7),7-29。取自http://pss.sagepub.com/content/25/1/7.full.pdf+html