引导不平衡的集群数据(非参数引导)

机器算法验证 引导程序 模拟 面板数据
2022-03-31 12:32:52

我试图弄清楚如何从具有不平衡集群的数据集中模拟引导样本。我想采用的方法是非参数对 bootstrap,它很容易允许维护集群的依赖结构。

假设数据是平衡的(例如,500 位母亲,每人有 2 个孩子)。具有迭代的两级模拟算法B将是:

为了b=1,,B,

  • 对 500 名母亲进行替换样本。
  • 样品 2 个儿童,无需更换。

因此,两个集群的内部组成相对于初始样本保持不变,最终样本大小等于原始数据集的一个(N=1000)。

现在,假设一些母亲有 3 个孩子。这意味着通过采用上述策略,最终的模拟样本一般不会由 1000 个观测值组成。

据您所知,在第二种情况下是否存在统计问题?如果是这样,您将如何进行?

在阅读了戴维森的第1本书后,不平衡集群案例将需要更先进的技术,我进行了广泛的书目研究,但在模拟算法方面我发现很少或根本没有发现。

更新

对于 R 中的实际集群引导实现,请参阅此问题

1戴维森,AC,欣克利,DV(1997 年)。引导方法及其应用剑桥大学出版社。

1个回答

无论如何,对于集群数据,您有 500 个自由度。您的标称样本量可能是 1005 或 1320 或任何数字都没有关系。您估计的抽样方差通常只会在您增加聚类数量的情况下有所改善。所以我不认为随机样本量是一个问题。

我在 Stata 中编写了集群引导代码,请参阅http://www.stata-journal.com/article.html?article=st0187