对于自举,为什么较高的子样本量会导致较低的方差?

机器算法验证 样本量 引导程序 重采样
2022-04-14 19:44:56

我一直在研究一个引导问题,这让我有点困惑,想知道我做事是否正确。

我们从大约 3,400 个人口中收集了大约 200 个样本,我们想要引导一个值来估计 3,400 个案例的总值。我自己和一位同事都采取了略有不同的方法。

我抽取了 200 个样本并随机选择了 3,400 个观察值来创建一个与总体大小相同的新样本,然后得到 3,400 个值的总和。我重复了这 10,000 个,并取了所有 10,000 个总数的平均值和标准差。这给了我一个 95% 置信区间的总值估计值。

我的同事做了几乎完全相同的事情,但他没有抽取 3,400 个子样本,而是他的 10,000 个子样本每个只有 200 个。他得到了整个批次的平均值和标准偏差,然后将其乘以 3,400 以得到总数的估计值。

当我们比较结果时,我们发现我们得到了完全相同的估计答案——这很好。但是,与他的方法的标准偏差要大得多。

从做一些研究来看,他重新采样到与原始样本相同的数字的方法似乎是正确的,但是任何人都可以准确解释为什么标准偏差的差异?

这种差异让我想知道这是否就是我们计算标准偏差的方式。我们是否应该计算每个子样本的标准偏差 10,000 次并以与总和相同的方式进行估计?

另外,任何人都可以指出任何资源/教程来解决问题吗?

谢谢!

1个回答

首先,您不应该对尺寸大于原始样本的自举样本进行重新采样。因此,无论您的人口规模如何,如果您的样本量为 200,您不应将这些值重新采样超过 200 次。事实上,您应该精确地重新采样 200 次。所以得到正确结果的是你的朋友。

至于为什么你的方差较低,那是因为大小为 3400 的随机索引数组将比大小为 200 的随机索引更接近均匀分布。随机索引分布越均匀,自举分布就越相似原始样本分布。这意味着自举平均值也将更接近原始样本平均值,从而减少结果的整体方差。