请在我错的地方纠正我:
我对自举的理解是,它是一种仅在给定一个样本的情况下估计某些统计量(平均值、标准误差、皮尔逊相关系数等)分布的方法。因此,如果我想使用 bootstrap 方法估计总体的平均值,我会生成许多 bootstrap 样本,计算每个 bootstrap 样本的平均值,然后使用这些值的分布来推断未知总体平均值可能下降的位置并计算统计量的置信区间。
但是如何生成引导样本?有一个 scikit 引导模块,我看到它有一个引导方法来计算给定统计的置信区间:参见第一个函数def(ci)。
第一个估计量是经验分布函数,它应该是一个数组,可以计算感兴趣的统计量。这些经验数据如何用于生成引导样本?
为了扩展这个问题,如果我想计算两个随机变量 x 和 y 之间的 Pearson 相关系数的 95% 置信区间,然后传递data = [(x1,y1), (x2,y2), ... (xi,yi), ... (xn,yn)]给 bootstrap CI 的实现,这是否意味着(x1, ..., xn)和(y1, ..., yn)是相互独立生成的生成的每个引导样本?
