引导样本与原始样本完全相同的机会

机器算法验证 采样 引导程序 样本量 二次抽样
2022-03-14 16:47:32

只是想检查一些推理。

如果我的原始样本大小为并且我引导它,那么我的思考过程如下:n

1n是从原始样本中提取的任何观察结果的机会。为了确保下一次抽签不是之前采样的观察,我们将样本大小限制为因此,我们得到了这个模式:n1

1n1n11n21n(n1)=1n!.

它是否正确?我偶然发现为什么它不能是(1n)n

1个回答

请注意,在每个观察位置(),我们可以选择观察中的任何一个,因此有可能的重新采样(保持它们被绘制的顺序),其中是“相同的样本”(即包含所有没有重复的原始观察;这说明了我们开始时对样本进行排序的所有方式)。i=1,2,...,nnnnn!n

例如,对于三个观察值 a、b 和 c,您有 27 个可能的样本:

aaa aab aac aba abb abc aca acb acc 
baa bab bac bba bbb bbc bca bcb bcc 
caa cab cac cba cbb cbc cca ccb ccc 

其中六个包含 a、b 和 c 各一个。

所以是取回原始样本的概率。n!/nn

撇开 - 概率的快速近似:

考虑一下

2π nn+12enn!e nn+12en

所以

2π n12enn!/nne n12en

下限是斯特林近似的常用下限(对于较大的具有较低的相对误差)。n

[Gosper建议使用这将产生该概率 ,根据您的标准有多严格甚至的情况下都可以很好地工作。]n!(2n+13)πnnen(2n+13)πenn=3n=1


(对评论的回应:)在给定的重新采样中没有得到特定观察的概率是,对于大的大约是(11n)nne1

有关详细信息,请参阅
为什么每个 bootstrap 样本平均包含大约三分之二的观察值?