少量观察的自举

机器算法验证 引导程序
2022-03-25 02:35:51

假设我收集了少量(N) 的观察结果,用于我想检验的假设。我可以使用 bootstrap 方法为 N 次观察的平均结果生成样本分布,但我担心当 N 变得非常小时,该模型可能会崩溃,从而将误差引入样本分布本身。

所以我的问题是,我如何确定获得合理结果所需的最小 N 是多少?或者更定量地说,N 是如何与 N->0 的抽样误差联系在一起的?

更新:我开始明白 N 的最小值将根据基础数据的性质而有所不同。那么,在这种情况下,我可以进行哪些元观察来帮助我确定这一点?我不知道真正的底层分布,否则我不需要引导。

1个回答

对此没有直接的答案,因为它始终取决于数据的真实分布(想象一下退化的情况,其中允许的唯一值是 1:那么来自大小为 1 的样本的引导程序将与任何东西一样好!)以及您要计算的统计数据:一些统计数据从小样本量中恢复比其他统计数据更困难(想象一个极端异常值的重新采样)。

所以:你必须比你迄今为止给我们的更具体。