我试图弄清楚如何从具有不平衡集群的数据集中模拟引导样本。我想采用的方法是非参数对 bootstrap,它很容易允许维护集群的依赖结构。
假设数据是平衡的(例如,500 位母亲,每人有 2 个孩子)。具有迭代的两级模拟算法B将是:
为了,
- 对 500 名母亲进行替换样本。
- 样品 2 个儿童,无需更换。
因此,两个集群的内部组成相对于初始样本保持不变,最终样本大小等于原始数据集的一个()。
现在,假设一些母亲有 3 个孩子。这意味着通过采用上述策略,最终的模拟样本一般不会由 1000 个观测值组成。
据您所知,在第二种情况下是否存在统计问题?如果是这样,您将如何进行?
在阅读了戴维森的第1本书后,不平衡集群案例将需要更先进的技术,我进行了广泛的书目研究,但在模拟算法方面我发现很少或根本没有发现。
更新
对于 R 中的实际集群引导实现,请参阅此问题。
1戴维森,AC,欣克利,DV(1997 年)。引导方法及其应用。剑桥大学出版社。