从有限总体中引导样本

机器算法验证 置信区间 采样 引导程序 有限种群
2022-04-05 04:00:04

有人可以为我指出一些关于从已知规模的人群中引导样本的理论参考吗?

当总体规模被认为大于样本时,我习惯于使用 Bootstrap 来计算样本的置信区间(因此,具有重复的随机选择应该很好地模拟采样过程)。

现在假设我知道人口是 1000,我抽样了 800(假设抽样实际上是随机的)。重复随机选择似乎不合适。根据鸽巢原理,如果我真的抽取另一个大小为 800 的随机样本,则可以保证至少 600 个值与原始样本相同,这是传统 bootstrap 无法复制的(并且可能会丢失很多)。

有什么解决办法吗?我想到了:

  • 重复采样 1000 个,然后随机选择 800 个(似乎是传统 bootstrap 的等效方法)
  • 不重复采样 600 个,比使用所有 800 个重复采样多采样 200 个。这将解释我之前描述的效果。

关于这些方法的优缺点有什么想法吗?或者任何替代方法?

1个回答

引导抽样应该类似于从总体中抽样数据的过程。在有限人口的情况下,您从大小为,即案例。在这种情况下使用 bootstrap 有两个问题:(1)如果您使用传统的 bootstrap,您将使用替换而不是不替换进行采样,(2)如果您在没有替换情况下进行采样,那么您最终会得到样本小于第一种情况是一个主意,因为在这种情况下,引导程序与原始采样过程不同。对于在有限人口情况下使用引导程序,您有三种选择:fNn=fNfnn

  1. 没有替换大小为的样本的样本,然后重新调整结果。找到合适的重新缩放因子可能比听起来更复杂,所以这可能不是最好的选择。fn
  2. 首先样本而不进行替换 ,将它们连接到样本中,然后从样本中抽取样本而不进行替换这称为镜像匹配引导程序Nn n
  3. 首先个替换 样本,然后从样本中抽取替换样本这称为超人口引导Nn

要了解有关这些方法的更多信息,您可以查看以下资源:

戴维森,交流和欣克利,DV(2009 年)。引导方法及其应用。纽约,纽约:剑桥大学出版社。

西特,RR (1992)。复杂调查数据的重采样程序。美国统计协会杂志,87(419),755-765。

西特,RR (1992)。比较调查数据的三种引导方法。加拿大统计杂志,20(2),135-154。