自举样本的大小

机器算法验证 采样 引导程序 重采样
2022-03-13 06:26:06

我正在学习自举作为估计样本统计量方差的一种方法。我有一个基本的疑问。

引用http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf

• 我们应该重新采样多少个观测值?一个好的建议是原始样本量。

我们如何重新采样与原始样本一样多的观测值?
如果我的样本量为 100,并且我正在尝试估计均值的方差。如何从总样本量 100 中获得多个大小为 100 的引导样本?在这种情况下,只有 1 个引导样本可能等同于原始样本,对吗?

我显然误解了一些非常基本的东西。我知道理想的引导样本的数量总是无限的,为了确定我的数据所需的引导样本的数量,我必须测试收敛性,同时牢记我所需的精度。 但是我真的很困惑每个单独的引导样本的大小应该是多少。

2个回答

Bootstrap 是通过有放回抽样来进行的您似乎不清楚“替换”一词。正如whuber所指出的,带放回抽样的说明在第 10 页给出。您参考的论文中的 3 篇(转载如下)。

带放回抽样的图解

(来源:http ://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf )

带放回抽样的总体思路是,任何情况都可以多次抽样上面第一张图片上的绿色大理石;最后一张图片上的蓝色和紫色大理石)。如果你想自己想象这个过程,想象一个装满彩色大理石的碗。假设您想从这个碗中抽取一些弹珠。如果您在没有更换的情况下进行采样,那么您只需将弹珠从碗中取出并将采样的弹珠放在一边。如果您替换取样,那么您将一个接一个地取样弹珠,从碗中取出单个弹珠,在笔记本上签下它的颜色,然后将其退回到碗里。因此,在更换取样时,可以对同一大理石进行多次取样。

因此,当放回采样时,您只能个弹珠的碗中弹珠,而在放回采样的情况下,您可以从有限总体中采样任意数量的弹珠(甚至大于如果您从 n 个弹珠中抽取n更换,您最终会得到完全相同的样本,但顺序是打乱的。如果您从 n 个弹珠中抽取n替换弹珠每次您都可以采样不同的弹珠组合。nnnnnnn

的总体中,种无放回抽样方式k,\choose k 种带放回抽样方式如果你想了解更多关于它背后的数学知识,你可以查看2.1. Hossein Pishro-Nik 在线概率导论手册的组合学章节。WolframMathWorld页面上还有一个方便的备忘单。(nk)kn(n+k1k)

我们应该重新采样多少个观测值?一个好的建议是原始样本量。

当原始样本量太大并且您不想/不能在完整数据集上训练模型时,“好建议”就不是那么好。

PS:我想将此作为对问题的评论添加,但我不允许添加任何评论...