为什么要自举?

机器算法验证 引导程序
2022-04-11 01:03:14

我知道自举是一种用于估计人口统计数据的技术。在 bootstrapping 中,我们选取​​许多选定大小的样本,估计统计数据并获得这些统计数据的平均值。这个平均值代表了整个人口。

我的疑问是,为什么首先要取样。如果您有整个人口,请计算您获得 100% 准确统计数据的整体统计数据?

2个回答

欢迎来到简历!

在 bootstrapping 中,您反复从原始样本中抽取样本并进行替换这背后的一般想法是,如果您可以通过提出以下问题来估计样本中的不确定性:如果我没有观察到这个或那个观察结果,或者我不止一次观察到这个观察结果怎么办?

你这样做,比方说,次,最终得到稍微不同的对你感兴趣的统计量的估计。根据计算的统计数据受此影响的程度,您的自举统计数据的方差会更大。B=1,0001,000

事实上,事实证明,自举统计量的标准可以很好地估计统计量的标准误差

因此,通过简单地对原始样本进行简单的随机重采样,一遍又一遍,我们已经了解了估计的精确度,因为我们只有一个总体样本

当然,如果您可以测量整个人口,那么自举就没有意义。

我知道自举是一种用于估计人口统计数据的技术。

这是一种主要使用的技术

  • 估计总体参数的估计量的标准误差和/或θ

  • 导出θ

在这些数字太难以通过数理统计得出的情况下。

在 bootstrapping 中,我们选取​​许多选定大小的样本,估计统计数据并获得这些统计数据的平均值。这个平均值代表了整个人口。

它确实是一种重采样技术,通过替换nn观察。关键的说法是,这种重新抽样的引导样本对原始样本的影响,就像原始样本对总体的影响一样通常感兴趣的不是自举统计的平均值,而是它允许找到置信区间的变化。

我的疑问是,为什么首先要取样。如果您有整个人口,请计算您获得 100% 准确统计数据的整体统计数据?

通常,我们无法接触到所有人口。但如果我们有,确实通常不需要做任何推论统计(包括引导)。