自举 - 有人可以提供一个简单的解释让我开始吗?

机器算法验证 非参数 引导程序 直觉
2022-03-13 01:50:22

尽管多次尝试阅读有关引导程序的信息,但我似乎总是碰壁。我想知道是否有人可以对自举给出一个合理的非技术定义?

我知道在这个论坛上不可能提供足够的细节来让我完全理解它,但是非常感谢您朝着正确的方向轻轻推进,以引导的主要目标和机制!谢谢。

4个回答

Bootstrapping 上的维基百科条目实际上非常好:

http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29

应用自举的最常见原因是当从中获取样本的基础分布的形式未知时。传统上,统计学家假设一个正态分布(出于与中心极限定理相关的很好的理由),但通过正态分布理论估计的统计数据(例如标准偏差、置信区间、功效计算等)只有在基本人口分布为普通的。

通过反复对样本本身重新采样,自举可以实现与分布无关的估计。传统上,原始样本的每个“重新采样”都会随机选择与原始样本中相同数量的观察值。但是,这些是通过替换选择的。如果样本有 N 个观测值,则每个 bootstrap 重采样将有 N 个观测值,其中许多原始样本重复且许多被排除。

然后可以从每个自举样本估计感兴趣的参数(例如优势比等)。通过选择第 2.5、第 50 和第 97.5 个百分位,重复引导程序 1000 次可以估计统计数据(例如优势比)的“中位数”和 95% 置信区间。

美国科学家最近有一篇 Cosma Shalizi 撰写的关于bootstrap的好文章,该文章相当容易阅读,并为您提供了掌握该概念的要领。

非常广泛地:直觉以及名称的起源(“自力更生”)源于观察,即使用样本的属性得出关于总体的推论(统计的“逆”问题推理),我们预计会出错。要找出该错误的性质,请将样本本身视为一个总体,并研究当您从中抽取样本时您的推理过程是如何工作的 这是一个“前向”问题:你对你的样本-qua了如指掌-人口,不必猜测它。您的研究将表明 (a) 您的推理程序可能存在偏差的程度,以及 (b) 您的程序统计误差的大小和性质。因此,请使用此信息来调整您的原始估计。在许多(但绝对不是全部)情况下,调整后的偏差会逐渐降低。

这个示意图描述提供的一个见解是,自举不需要模拟或重复的二次抽样:这些恰好是综合的、计算上易于处理的方法来研究任何类型的统计过程,当人口已知时。存在大量可以数学计算的引导估计。

这个答案很大程度上归功于 Peter Hall 的书“The Bootstrap and Edgeworth Expansion”(Springer 1992),尤其是他对 bootstrap 的“主要原理”的描述。

关于引导的 wiki给出了以下描述:

自举允许人们收集通常从一个样本中计算出来的单一统计数据的许多替代版本。例如,假设我们对全世界人们的身高感兴趣。由于我们无法测量所有人口,我们只对其中的一小部分进行抽样。从该样本中只能获得一个统计值,即一个平均值或一个标准差等,因此我们看不到该统计有多少变化。在使用 bootstrapping 时,我们从 N 个采样数据中随机抽取一个具有 n 个高度的新样本,其中每个人最多可以被选择 t 次。通过多次这样做,我们创建了大量我们可能已经看到的数据集,并计算了每个数据集的统计数据。因此,我们得到了统计量分布的估计。

如果您能澄清您不理解上述描述的哪一部分,我将提供更多详细信息。