只是想检查一些推理。
如果我的原始样本大小为并且我引导它,那么我的思考过程如下:
是从原始样本中提取的任何观察结果的机会。为了确保下一次抽签不是之前采样的观察,我们将样本大小限制为。因此,我们得到了这个模式:
它是否正确?我偶然发现为什么它不能是。
只是想检查一些推理。
如果我的原始样本大小为并且我引导它,那么我的思考过程如下:
是从原始样本中提取的任何观察结果的机会。为了确保下一次抽签不是之前采样的观察,我们将样本大小限制为。因此,我们得到了这个模式:
它是否正确?我偶然发现为什么它不能是。
请注意,在每个观察位置(),我们可以选择观察中的任何一个,因此有可能的重新采样(保持它们被绘制的顺序),其中是“相同的样本”(即包含所有没有重复的原始观察;这说明了我们开始时对样本进行排序的所有方式)。
例如,对于三个观察值 a、b 和 c,您有 27 个可能的样本:
aaa aab aac aba abb abc aca acb acc
baa bab bac bba bbb bbc bca bcb bcc
caa cab cac cba cbb cbc cca ccb ccc
其中六个包含 a、b 和 c 各一个。
所以是取回原始样本的概率。
撇开 - 概率的快速近似:
考虑一下:
所以
下限是斯特林近似的常用下限(对于较大的具有较低的相对误差)。
[Gosper建议使用这将产生该概率 ,根据您的标准有多严格甚至的情况下都可以很好地工作。]
(对评论的回应:)在给定的重新采样中没有得到特定观察的概率是,对于大的大约是。
有关详细信息,请参阅
为什么每个 bootstrap 样本平均包含大约三分之二的观察值?