为什么引导很有用?

机器算法验证 机器学习 数理统计 采样 引导程序 重采样
2022-02-16 07:46:24

如果您所做的只是从经验分布中重新采样,为什么不研究经验分布呢?例如,与其通过重复抽样来研究变异性,为什么不从经验分布中量化变异性呢?

3个回答

自举(或其他重采样)是一种估计统计量分布的实验方法。

这是一种非常直接和简单的方法(它只是意味着您使用样本数据的许多随机变体进行计算,以获得、估计、所需的统计分布)。

当“理论/分析”表达式太难以获得/计算时(或者像aksakal 所说的有时它们是未知的),您很可能会使用它。

  • 示例 1:如果您进行 pca 分析并希望将结果与“特征值偏差的估计”进行比较,假设变量之间没有相关性。

您可以多次打乱数据并重新计算 pca 特征值,以便获得特征值的分布(基于对样本数据的随机测试)。

请注意,当前的做法是凝视碎石图并应用经验法则来“决定”某个特征值是否显着/重要。

  • 示例 2:您进行了非线性回归y ~ f(x),为您提供函数 f 的一组参数的一些估计。 现在您想知道这些参数的标准误差。

在这里不可能像在 OLS 中那样简单地查看残差和线性代数。然而,一种简单的方法是多次计算相同的回归,并重新打乱残差/误差,以便了解参数将如何变化(假设误差项的分布可以通过观察到的残差建模)。

关键是 bootstrap 并不是真正关于找出数据分布的特征,而是找出应用于数据的估计器的特征。

诸如经验分布函数之类的东西会告诉您对数据来源​​的 CDF 的相当好的估计……但是通过隔离,它基本上不会告诉您我们从该数据构建的估计器的可靠性。这是使用引导程序回答的问题。

如果你确切地知道底层分布是什么,那么你就不需要研究它。有时,在自然科学中,您确切地知道分布。

如果你知道分布的类型,那么你只需要估计它的参数,并按照你的意思研究它。例如,有时您先验地知道基础分布是正态的。在某些情况下,您甚至知道它的含义。因此,对于正常情况,唯一需要确定的是标准偏差。你从样本中得到样本标准差,瞧,你得到了要研究的分布。

如果您不知道分布是什么,但认为它是列表中的几个分布之一,那么您可以尝试将这些分布拟合到数据中,然后选择最适合的分布。然后你研究那个分布。

最后,您通常不知道您正在处理的分发类型。而且您没有理由相信它属于 R 可以拟合您的数据的 20 个分布之一。你会怎样做?好的,你看看平均值和标准差,很好。但是,如果它非常倾斜怎么办?如果它的峰度很大怎么办?等等。你真的需要知道所有的分布时刻才能知道并研究它。因此,在这种情况下,非参数引导就派上用场了。你不要假设太多,简单的样本,然后研究它的矩和其他属性。

尽管非参数引导不是一个神奇的工具,但它也有问题。例如,它可能是有偏见的。我认为参数引导是公正的