使用引导样本与原始样本

机器算法验证 估计 引导程序
2022-03-29 07:33:45

考虑一个实数样本。假设我们想估计人口的集中趋势,并了解我们围绕这个估计的不确定性。

让我们暂时搁置关于人口分布的假设,并考虑以下两种方法。

  1. 获取输入样本的引导样本。也就是说,有放回的样本(例如,获得 100 个重采样)并计算每个重采样的平均值。然后,我们输出所得均值经验分布的均值和置信区间。
  2. 我们从输入样本中输出平均值,并输出平均值周围的百分位数以传达估计值的不确定性。

Bootstrap 与原始样本:

  • 虽然我了解方法#1 的作用。#2 背后是否有潜在的估计量?
  • 与#1 的 CI 相比,#2 中平均值周围的百分位数会传达什么?方法 2 传达了一种不确定感,但我很难将其与常客或贝叶斯解释联系起来。
  • 方法#2 会提供更好的总体均值估计吗?(例如更少的偏差和更低的方差)?
1个回答

#2中的估计器是您为...生成间隔的东西。样本均值。您正在使用引导程序尝试通过使用重采样分布来近似它来获取样本均值的采样分布。

由于它在 #1 和 #2 中是完全相同的估计量,因此 #2 将具有与 # 1,您只是试图以两种不同的方式获得其中一个属性。