随着样本量的增加,在什么情况下置信区间不会变得更好?

机器算法验证 置信区间 t检验 模拟
2022-03-14 16:15:44

在一篇文中,我发现声称

“我相信 WG Cochrane 第一次指出(大约在 1970 年代),在观察环境中的置信区间中,小样本量会导致更好的覆盖率,足够大的样本提供接近零的覆盖率!”

现在我假设 CI 宽度应该随着样本量的增加而接近 0,但是覆盖率会同时恶化的想法对我来说并不令人信服。这种说法是否属实,在什么情况下?还是我看错了?

我使用随机正态分布数据进行了模拟,样本量从 10000 到 1000000(单样本 t 检验,95% CI),每个样本量运行 1000 次,并且对于更高的样本量,覆盖率并没有变得更糟(相反,我发现预期的接近恒定的 ~5% 错误率)。

2个回答

请注意“在观察环境中”的限定。

检查您引用引用的上下文(它所在的评论的子线程),看起来意图是“在现实世界中”而不是在模拟中,并且可能不包括受控实验.. . 在这种情况下,可能的意图是推导出间隔的假设实际上并不完全成立的结果。有许多因素会影响偏差——与小样本的变异性相比,它们的影响很小——但通常不会随着样本量的增加而减少,而标准误差会减少。

由于我们的计算不包含偏差,随着间隔缩小(如),任何不变的偏差,即使它很小,也会变得更大,使我们的间隔越来越不可能包含真实值。1/n

这是一个插图 - 可能夸大了偏见 - 表明我认为 CI 覆盖率随着样本量的增加而缩小的含义:

当存在偏差时,CI 覆盖概率随着样本量的增加而缩小的图表

当然,在任何特定样本中,间隔都是随机的——它会变宽或变窄,并相对于图表向左或向右移动,因此在任何样本大小下,它都有一些介于 0 和 1 之间的覆盖概率,但有任何偏差的增加,它会向零收缩。这是一个使用模拟数据在每个样本大小处具有 100 个置信区间的示例(以透明度绘制,因此在更多区间覆盖的情况下颜色更纯正):n

与上面类似的图,每个 n 有 10 个样本 CI

甜蜜的讽刺。在该段之前,同一个人说“难怪有如此广泛的混乱”。“观察环境中的置信区间”:这甚至意味着什么?

在我看来,这又一次混淆了估计假设检验

现在我知道随着样本量的增加,CI 宽度应该接近 1。

不,这取决于上下文。原则上,宽度应该收敛到对于大量蒙特卡罗模拟,覆盖率应接近标称值。覆盖范围不取决于样本量,除非构建 CI 的某些假设存在缺陷(这可能是 OP 的意思。“所有模型都是错误的”,是的。)。0

参考是个人博客帖子中的评论我不会太担心这种参考的有效性。另一方面,Larry Wasserman 拥有的博客往往写得很好。这让我想起了 xkcd 漫画:

http://xkcd.com/386/