基于 CLT 的置信区间:有用吗?

机器算法验证 中心极限定理 方法 渐近的
2022-04-01 10:17:59

假设,为了具体起见,我正在尝试使用大小的随机样本来估计总体的平均值N.

许多基础书籍讨论了通过使用中心极限定理来形成总体均值的置信区间,以证明样本均值近似正态分布。

然而,中心极限定理是关于极限的定理N. 但如果N真的很大,那么置信区间的宽度就会很小,只给出一个点估计就足够了。

所以似乎我们隐含地假设有一个范围N对于 CLT 的假设并不算太糟糕,但对于N不会大到将置信区间缩小到几乎一个点。

我的问题是:做出这种隐含假设有什么依据吗?有没有办法判断这个范围有什么用N是针对特定应用的?

1个回答

向高斯收敛的速度取决于确切的定律,特别是累积量的值:

  • 如果没有 1 或 2 阶累积量,即没有均值或没有方差,则不能期望收敛到正态;
  • 如果存在 1 阶和 2 阶累积量,这一切都取决于高阶累积量。它们越小,和收敛到法线的速度越快,因为起始规律已经接近法线。

例如,通常认为一个Poi(20)定律可以很好地近似为N(20,20). 然而,20相比起来仍然是不可忽视的20.

正常和精确之间差异的界限由 Berry - Esseen 定理给出,但我不确定它们是否适用于实践,因为您需要知道难以从数据中估计的第三时刻。

在实践中,需要进行判断,并且只要法律与正态性有很大差异,就必须避免近似:非常不居中或重尾(例如,参见 qq 图)。

自举也可能有所帮助:如果您的经验数据足够接近正常值,那么自举和重新估计应该会再次接近近似公式。