最近研究了 bootstrap,我提出了一个仍然让我感到困惑的概念性问题:
你有一个人口,你想知道人口属性,即,我在哪里使用来代表人口。这例如,可以是人口平均数。通常,您无法从总体中获取所有数据。所以你画一个样本大小的从人口。为简单起见,假设您有 iid 样本。然后你得到你的估算器. 你想用推断,所以你想知道的可变性 .
首先,有一个真实的抽样分布. 从概念上讲,您可以绘制许多样本(每个样本都有大小) 从人口中。每次你都会有一个体会因为每次你都会有不同的样本。那么最后你就可以恢复真实的分布了. 好的,这至少是估计分布的概念基准. 让我重申一下:最终目标是使用各种方法来估计或近似真实分布.
现在,问题来了。通常,您只有一个样本包含数据点。然后你从这个样本中重新采样很多次,你会得到一个自举分布. 我的问题是:这种引导分布与真实抽样分布有多接近? 有没有办法量化它?