bootstrapping 对估计器的抽样分布的近似程度如何?

机器算法验证 引导程序 模拟 重采样
2022-02-02 05:11:38

最近研究了 bootstrap,我提出了一个仍然让我感到困惑的概念性问题:

你有一个人口,你想知道人口属性,即θ=g(P),我在哪里使用P来代表人口。θ例如,可以是人口平均数。通常,您无法从总体中获取所有数据。所以你画一个样本X大小的N从人口。为简单起见,假设您有 iid 样本。然后你得到你的估算器θ^=g(X). 你想用θ^推断θ,所以你想知道的可变性 θ^.

首先,有一个真实的抽样分布θ^. 从概念上讲,您可以绘制许多样本(每个样本都有大小N) 从人口中。每次你都会有一个体会θ^=g(X)因为每次你都会有不同的样本。那么最后你就可以恢复真实的分布了θ^. 好的,这至少是估计分布的概念基准θ^. 让我重申一下:最终目标是使用各种方法来估计或近似真实分布θ^.

现在,问题来了。通常,您只有一个样本X包含N数据点。然后你从这个样本中重新采样很多次,你会得到一个自举分布θ^. 我的问题是:这种引导分布与真实抽样分布有多接近θ^? 有没有办法量化它?

2个回答

Bootstrap 是基于经验 cdf 与真实 cdf 的收敛性,即

F^n(x)=1ni=1nIXixXiiidF(x)
收敛(如n去无穷大)F(x)对于每个x. 因此,自举分布的收敛θ^(X1,,Xn)=g(F^n) 是由这种收敛速度驱动的n对于每个 x, 自从
n{F^n(x)F(x)}distN(0,F(x)[1F(x)])
即使这种速率和限制分布不会自动转移到g(F^n). 在实践中,为了评估近似值的可变性,您可以对g(F^n)通过双引导,即通过引导引导评估。

作为更新,这是我在课堂 在此处输入图像描述 上使用的插图:lhs 比较真实 cdfF与经验 cdfF^n为了n=100观察结果和 rhs 图250lhs 的副本,用于 250 个不同的样本,以测量 cdf 近似值的可变性。在示例中,我知道真相,因此我可以根据真相进行模拟以评估可变性。在现实情况下,我不知道F因此我必须从F^n而是生成类似的图表。

进一步更新:这是从经验 cdf 开始时管图的样子: 在此处输入图像描述

在信息论中,量化一个分布与另一个分布“接近”程度的典型方法是使用KL 散度

让我们尝试用一个高度倾斜的长尾数据集来说明它——休斯顿机场的飞机到达延误(来自hflights包)。θ^是平均估计。首先,我们找到样本分布θ^,然后是自举分布θ^

这是数据集:

在此处输入图像描述

真实平均值为 7.09 分钟。

首先,我们做一定数量的样本,得到样本分布θ^,然后我们抽取一个样本并从中抽取许多引导样本。

例如,让我们看一下样本大小为 100 和 5000 次重复的两个分布。我们在视觉上看到这些分布是相当分开的,KL 散度为 0.48。

在此处输入图像描述

但是当我们将样本量增加到 1000 时,它们开始收敛(KL 散度为 0.11)

在此处输入图像描述

并且当样本量为 5000 时,它们非常接近(KL 散度为 0.01)

在此处输入图像描述

当然,这取决于您获得的引导程序样本,但我相信您可以看到,随着我们增加样本量,KL 散度下降,因此引导程序分布θ^接近样本分布θ^就KL散度而言。可以肯定的是,您可以尝试进行几次引导并取 KL 散度的平均值。

这是这个实验的R代码:https ://gist.github.com/alexeygrigorev/0b97794aea78eee9d794