当引导参数以获得标准误差时,我们会得到参数的分布。为什么我们不使用该分布的平均值作为我们试图获得的参数的结果或估计值?分布不应该接近真实分布吗?因此,我们会很好地估计“真实”价值吗?然而,我们报告了从样本中获得的原始参数。这是为什么?
谢谢
当引导参数以获得标准误差时,我们会得到参数的分布。为什么我们不使用该分布的平均值作为我们试图获得的参数的结果或估计值?分布不应该接近真实分布吗?因此,我们会很好地估计“真实”价值吗?然而,我们报告了从样本中获得的原始参数。这是为什么?
谢谢
因为自举统计是对人口参数的进一步抽象。你有你的人口参数,你的样本统计数据,并且只有在第三层你有引导程序。自举平均值不是您的总体参数的更好估计值。这只是一个估计的估计。
作为包含所有可能的自举组合的自举分布以样本统计量为中心,就像在相同条件下以总体参数为中心的样本统计量一样。这篇论文很好地总结了这些事情,这是我能找到的最简单的论文之一。有关更详细的证明,请遵循他们引用的论文。值得注意的例子是Efron (1979)和Singh (1981)
自举分布遵循分布这使得它可用于估计样本估计的标准误差、构建置信区间以及估计参数的偏差。它并不能使其成为更好的总体参数估计量。它只是为统计分布的通常参数分布提供了有时更好的替代方案。
至少在一种情况下,人们确实使用了 bootstrap 分布的平均值:bagging(bootstrap aggregating的缩写)。
基本思想是,如果您的估计器对数据中的扰动非常敏感(即,估计器具有高方差和低偏差),那么您可以对大量引导样本进行平均,以减少过度拟合特定示例的数量。
我链接到的页面指出,这会在您的估计中引入一些偏差,这就是为什么样本平均值通常比平均您的引导样本更有意义。但是,如果你有像决策树或最近邻分类器这样的东西,它们可以根据数据中的微小变化而发生根本变化,那么这种偏差可能不像过度拟合那样令人担忧。
值得注意的是,自举样本的平均值之间的差异和样本估计有时可以用作对偏差的估计在估计真实参数时.