考虑一个实数样本。假设我们想估计人口的集中趋势,并了解我们围绕这个估计的不确定性。
让我们暂时搁置关于人口分布的假设,并考虑以下两种方法。
- 获取输入样本的引导样本。也就是说,有放回的样本(例如,获得 100 个重采样)并计算每个重采样的平均值。然后,我们输出所得均值经验分布的均值和置信区间。
- 我们从输入样本中输出平均值,并输出平均值周围的百分位数以传达估计值的不确定性。
Bootstrap 与原始样本:
- 虽然我了解方法#1 的作用。#2 背后是否有潜在的估计量?
- 与#1 的 CI 相比,#2 中平均值周围的百分位数会传达什么?方法 2 传达了一种不确定感,但我很难将其与常客或贝叶斯解释联系起来。
- 方法#2 会提供更好的总体均值估计吗?(例如更少的偏差和更低的方差)?