了解相关系数置信区间的引导方法

机器算法验证 相关性 置信区间 采样 Python 引导程序
2022-03-30 07:39:59

请在我错的地方纠正我:

我对自举的理解是,它是一种仅在给定一个样本的情况下估计某些统计量(平均值、标准误差、皮尔逊相关系数等)分布的方法。因此,如果我想使用 bootstrap 方法估计总体的平均值,我会生成许多 bootstrap 样本,计算每个 bootstrap 样本的平均值,然后使用这些值的分布来推断未知总体平均值可能下降的位置并计算统计量的置信区间。

但是如何生成引导样本?有一个 scikit 引导模块,我看到它有一个引导方法来计算给定统计的置信区间:参见第一个函数def(ci)

第一个估计量是经验分布函数,它应该是一个数组,可以计算感兴趣的统计量。这些经验数据如何用于生成引导样本?

为了扩展这个问题,如果我想计算两个随机变量 x 和 y 之间的 Pearson 相关系数的 95% 置信区间,然后传递data = [(x1,y1), (x2,y2), ... (xi,yi), ... (xn,yn)]给 bootstrap CI 的实现,这是否意味着(x1, ..., xn)(y1, ..., yn)是相互独立生成的生成的每个引导样本?

2个回答

简短的回答是——至少在简单的情况下——观察是用替换抽样的。想象一下将每个数据值写入n面骰子并滚动骰子n次。

如果您尝试引导相关性,则成对重新采样数据如果您将数据视为两列,则每一行都是一个观察值,并且您对观察值(行)进行重新采样。(xi,yi)

这是一个例子:

在此处输入图像描述

更一般地,考虑一个数据矩阵,其中观察(行)被重新采样。

(不过,这并不是适合所有情况的重采样方案。有大量的引导方案。)

bootstrap 是基于数据的经验分布函数的众多估计技术之一:x

F(t)=0ti=1nI(s>xi)nds

在多变量设置中,您认为在引导时观察到的行完全相关。这使我们无法在癌症风险研究中对绝经后男性进行抽样。

使用样本累积分布函数,但您可以根据任何随机抽样技术从中抽取样本,这几乎是任何统计软件包中的事实工具。从中抽取样本相当于只为数据中每个联合观察到的行这意味着,在您的情况下,对进行联合采样。另一方面,置换测试允许您随机重新排列联合观察的数据行的列,并根据这些值执行重采样测试。1/n(xi,yi)