我正在尝试学习统计学,因为我发现它是如此普遍,以至于如果我不能正确理解它,它会阻止我学习一些东西。我无法理解样本均值的抽样分布这一概念。我无法理解某些书籍和网站的解释方式。我想我有一个理解,但不确定它是否正确。以下是我试图理解它的尝试。
当我们谈论一些呈正态分布的现象时,通常(并不总是)与人口有关。
我们想使用推论统计来预测一些关于某些人口的东西,但没有所有的数据。我们使用随机抽样,每个大小为 n 的样本被选中的可能性相同。
所以我们取了很多样本,比如说 100 个,然后根据中心极限定理,这些样本的均值分布将接近正态分布。样本均值的平均值将接近总体均值。
现在我不明白的是,很多时候你会看到“100 人的样本……”难道我们不需要 100 人的 10 或 100 的样本来近似均值的总体吗?还是我们可以取一个足够大的样本,比如 1000,然后说这个平均值会接近总体平均值?或者我们是否抽取 1000 人的样本,然后从我们最初抽取的 1000 人中抽取 100 个随机样本,每个样本中的 100 人,然后将其用作我们的近似值?
采取足够大的样本来近似平均值(几乎)总是有效吗?人口是否需要正常才能起作用?