CLT(至少以它的一些不同形式)告诉我们,在单个标准化样本均值的 n\to\infty 分布的极限中(\)收敛到正态分布(在某些条件下)。n→∞X¯−μσ/n√
CLT 没有告诉我们在或会发生什么。n=50n=50,000
但在试图激发 CLT 时,特别是在没有提供 CLT 证明的情况下,有些人依赖的抽样分布来获取有限样本,并表明随着样本的增加,抽样分布更接近于普通的。X¯
严格来说,这并没有证明 CLT,它更接近于证明 Berry-Esseen 定理,因为它证明了接近正态性的速度——但这反过来又会引导我们走向 CLT,所以它作为动机足够好(事实上,像 Berry-Esseen 这样的东西通常更接近人们在有限样本中实际想要使用的东西,因此在某种意义上,动机在实践中可能比中心极限定理本身更有用) .
这些样本均值的分布将是正常的。
好吧,不,它们是不正常的,但实际上它们会非常接近正常(高度有些偏斜但不是很偏斜)。
[再次注意,CLT 并没有告诉我们关于的样本均值的行为;这就是我之前对 Berry-Esseen 的讨论所得到的,它确实处理了有限样本的标准化均值的分布函数与正常 cdf 的距离有多远]n=50
我正在考虑的真实案例是对 50,000 个 Twitter 用户的数据集进行统计。该数据集显然不是重复样本,它只是 50,000 个大样本。
对于许多分布,50,000 个项目的样本平均值将非常接近正态分布 - 但不能保证,即使在 n=50,000 时,您将非常接近正态分布(如果单个项目的分布足够例如,样本均值的分布可能仍然偏斜到足以使正态近似值站不住脚)。
(Berry-Esseen 定理将引导我们预测这个问题可能会发生——而且很明显,它确实发生了。很容易给出 CLT 应用的例子,但是对于 n=50,000 来说,这几乎不是一个足够大的样本。标准化样本均值接近正常值。)