样本均值的抽样分布如何逼近总体均值?

机器算法验证 分布 正态分布 采样 正态假设
2022-02-14 21:45:50

我正在尝试学习统计学,因为我发现它是如此普遍,以至于如果我不能正确理解它,它会阻止我学习一些东西。我无法理解样本均值的抽样分布这一概念。我无法理解某些书籍和网站的解释方式。我想我有一个理解,但不确定它是否正确。以下是我试图理解它的尝试。

当我们谈论一些呈正态分布的现象时,通常(并不总是)与人口有关。

我们想使用推论统计来预测一些关于某些人口的东西,但没有所有的数据。我们使用随机抽样,每个大小为 n 的样本被选中的可能性相同。

所以我们取了很多样本​​,比如说 100 个,然后根据中心极限定理,这些样本的均值分布将接近正态分布。样本均值的平均值将接近总体均值。

现在我不明白的是,很多时候你会看到“100 人的样本……”难道我们不需要 100 人的 10 或 100 的样本来近似均值的总体吗?还是我们可以取一个足够大的样本,比如 1000,然后说这个平均值会接近总体平均值?或者我们是否抽取 1000 人的样本,然后从我们最初抽取的 1000 人中抽取 100 个随机样本,每个样本中的 100 人,然后将其用作我们的近似值?

采取足够大的样本来近似平均值(几乎)总是有效吗?人口是否需要正常才能起作用?

4个回答

我认为您可能会将平均值的预期抽样分布(我们将基于单个样本计算)与(通常是假设的)模拟如果我们多次从同一个总体中重复抽样会发生什么的过程混淆。

对于任何给定的样本量(即使 n = 2),我们会说样本均值(来自两个人)估计了总体均值。但是估计的准确性——也就是说,我们根据我们的样本数据估计总体平均值的工作有多好,反映在平均值的标准误差上——将比我们有 20 或 200我们样本中的人。这是相对直观的(更大的样本提供更好的估计精度)。

然后,我们将使用标准误差来计算置信区间,该区间(在这种情况下)基于正态分布(我们可能会在小样本中使用 t 分布,因为总体的标准差在小样本,导致过于乐观的标准误差。)

在回答您的最后一个问题时,不,我们并不总是需要正态分布的总体来应用这些估计方法——中心极限定理表明平均值的抽样分布(再次从单个样本估计)将趋于即使基础人口具有非正态分布,也遵循正态分布。这通常适用于“更大”的样本量。

话虽如此,当您从非正态总体进行抽样时,即使该均值的抽样分布被认为是可靠的,均值可能不是适当的汇总统计量。

  • 如果原始分布是正态的,则样本均值也将是正态的,有方差σ2/n, 在哪里n是样本量。作为n变大,均值分布的方差变小,因此在极限内,样本均值趋于总体均值的值。
  • 如果取几个独立的样本,每个样本的均值都是正态的,均值的均值也是正态的,并且趋于真实均值。
  • 如果您的样本确实来自相同的分布(例如,100 个样本,每个样本 10 个),您将做出相同的推论,就好像您抽取了 1000 个大样本一样。(但在现实世界中,不同的样本可能确实存在差异不能忽视;参见“随机区组设计”。)
  • 如果数据不是正态分布,而是来自具有有限方差的分布,则中心极限定理意味着上述所有陈述都近似正确,即极限分布将是正态分布。较大的n,你会越接近正常。
  • 如果您抽取 100 个样本,每个样本包含 10 个样本,则样本均值的分布看起来比原始数据更正态,但比整体均值的分布更不正态。
  • 采取大样本也将使您接近正常。
  • 如果您想估计总体均值,那么(理论上)如果您抽取 1000 个或 100 个 10 个样本的大样本,则没有区别。
  • 但在实践中,抽样理论人们可能会出于聚类、分层和其他问题的原因对样本进行拆分。然后,他们在进行估计时会考虑抽样方案。但这对于另一个问题来说真的很重要。

均值的抽样分布是给定大小的所有样本的分布。抽样分布的平均值等于总体的平均值。当我们谈论给定大小样本的均值采样距离时,我们不是在谈论一个样本甚至一千个样本,而是在谈论所有样本。

均值的采样距离与置信区间无关。那是另一个概念。对于抽样分布,总体可以正常或不正常 a) 如果 pop 正常,则平均值的抽样分布对于任何样本大小都是正常的。b) 如果 pop 不正常,则 1) 平均值的采样距离不能被认为是正常的,除非样本量为 30 或更多。然后中心极限定理告诉我们采样距离可以被认为是正常的。

你说的是预测。预测也与此无关。您在 samp dist 中插入了太多内容。采样距离就是所有样本,然后取平均值。所有这些样本的平均值 mu sub x bar 等于总体 mu 和标准 dev od 采样距离的平均值,sigma sub x bar = sigma 除以 n 的平方根。(我们不会谈论有限弹出校正因子。以您的统计数据为面值。不要过多地理解概念。首先要了解基本概念。

PS mean 的 samp dist 与 ro do abput pr 无关