机器算法验证 - 为什么引导很有用？ - 吾爱随笔录

为什么引导很有用？

机器算法验证机器学习数理统计采样引导程序重采样

2022-02-16 07:46:24

如果您所做的只是从经验分布中重新采样，为什么不研究经验分布呢？例如，与其通过重复抽样来研究变异性，为什么不从经验分布中量化变异性呢？

3个回答

自举（或其他重采样）是一种估计统计量分布的实验方法。

这是一种非常直接和简单的方法（它只是意味着您使用样本数据的许多随机变体进行计算，以获得、估计、所需的统计分布）。

当“理论/分析”表达式太难以获得/计算时（或者像aksakal 所说的有时它们是未知的），您很可能会使用它。

示例 1：如果您进行 pca 分析并希望将结果与“特征值偏差的估计”进行比较，假设变量之间没有相关性。

您可以多次打乱数据并重新计算 pca 特征值，以便获得特征值的分布（基于对样本数据的随机测试）。

请注意，当前的做法是凝视碎石图并应用经验法则来“决定”某个特征值是否显着/重要。

示例 2：您进行了非线性回归y ~ f(x)，为您提供函数 f 的一组参数的一些估计。 现在您想知道这些参数的标准误差。

在这里不可能像在 OLS 中那样简单地查看残差和线性代数。然而，一种简单的方法是多次计算相同的回归，并重新打乱残差/误差，以便了解参数将如何变化（假设误差项的分布可以通过观察到的残差建模）。

关键是 bootstrap 并不是真正关于找出数据分布的特征，而是找出应用于数据的估计器的特征。

诸如经验分布函数之类的东西会告诉您对数据来源的 CDF 的相当好的估计……但是通过隔离，它基本上不会告诉您我们从该数据构建的估计器的可靠性。这是使用引导程序回答的问题。

如果你确切地知道底层分布是什么，那么你就不需要研究它。有时，在自然科学中，您确切地知道分布。

如果你知道分布的类型，那么你只需要估计它的参数，并按照你的意思研究它。例如，有时您先验地知道基础分布是正态的。在某些情况下，您甚至知道它的含义。因此，对于正常情况，唯一需要确定的是标准偏差。你从样本中得到样本标准差，瞧，你得到了要研究的分布。

如果您不知道分布是什么，但认为它是列表中的几个分布之一，那么您可以尝试将这些分布拟合到数据中，然后选择最适合的分布。然后你研究那个分布。

最后，您通常不知道您正在处理的分发类型。而且您没有理由相信它属于 R 可以拟合您的数据的 20 个分布之一。你会怎样做？好的，你看看平均值和标准差，很好。但是，如果它非常倾斜怎么办？如果它的峰度很大怎么办？等等。你真的需要知道所有的分布时刻才能知道并研究它。因此，在这种情况下，非参数引导就派上用场了。你不要假设太多，简单的样本，然后研究它的矩和其他属性。

尽管非参数引导不是一个神奇的工具，但它也有问题。例如，它可能是有偏见的。我认为参数引导是公正的

其它你可能感兴趣的问题

上一篇可以使用多元回归从其他几台 PC 中预测一个主成分 (PC) 吗？下一篇根据平均绝对误差的箱线图删除异常值以改进回归模型是否作弊