有人可以为我指出一些关于从已知规模的人群中引导样本的理论参考吗?
当总体规模被认为大于样本时,我习惯于使用 Bootstrap 来计算样本的置信区间(因此,具有重复的随机选择应该很好地模拟采样过程)。
现在假设我知道人口是 1000,我抽样了 800(假设抽样实际上是随机的)。重复随机选择似乎不合适。根据鸽巢原理,如果我真的抽取另一个大小为 800 的随机样本,则可以保证至少 600 个值与原始样本相同,这是传统 bootstrap 无法复制的(并且可能会丢失很多)。
有什么解决办法吗?我想到了:
- 重复采样 1000 个,然后随机选择 800 个(似乎是传统 bootstrap 的等效方法)
- 不重复采样 600 个,比使用所有 800 个重复采样多采样 200 个。这将解释我之前描述的效果。
关于这些方法的优缺点有什么想法吗?或者任何替代方法?