为什么要在实际应用中考虑无替换抽样?

机器算法验证 采样 有限种群
2022-01-31 16:10:26

在我看来,有放回抽样比无放回抽样有两个优点:

1)您无需担心有限总体校正。

2) 人口中的元素有可能被多次绘制 - 然后您可以回收测量值并节省时间。

当然,从学术 POV 来看,必须研究这两种方法。但是从实际的 POV 来看,鉴于替换的优点,我不明白为什么要考虑不替换采样。

但我是统计学的初学者,所以可能有很多充分的理由说明不更换可能是更好的选择——至少对于特定用例而言。请解开我的疑惑!

4个回答

扩展@Scortchi 的答案。. .

假设总体有 5 名成员,并且您有预算来抽样 5 个人。您对变量 X 的总体均值感兴趣,这是该总体中个体的特征。您可以按照自己的方式进行操作,并随机抽样替换。样本均值的方差将为 V(X)/5。

另一方面,假设您对这五个人进行抽样而不进行替换。然后,样本均值的方差为 0。您已经对整个总体进行了抽样,每个个体恰好一次,因此“样本均值”和“总体均值”之间没有区别。他们是一样的东西。

在现实世界中,每次必须进行有限总体校正时,您都应该高兴地跳起来,因为(鼓声……)它会使估计器的方差下降,而无需收集更多数据。几乎没有什么能做到这一点。这就像魔术:好魔术。

在数学中说同样的话(注意 <,并假设样本量大于 1):

finite sample correction=NnN1<N1N1=1

校正 < 1 意味着应用校正会使方差下降,因为您通过将其与方差相乘来应用校正。方差下降 == 好。

朝着相反的方向前进,完全远离数学,想想你在问什么。如果您想了解总体并且可以从中抽取 5 个人样本,那么您是否有可能通过对同一个人进行 5 次抽样来了解更多信息,或者您是否更有可能通过确保你抽样5个不同的人?

现实世界的情况几乎与您所说的相反。您几乎从不使用替换进行采样 --- 只有在您进行特殊操作(如引导程序)时。在这种情况下,您实际上是在试图搞砸估计器并给它一个“太大”的方差。

与有放回抽样相比,无放回抽样的估计精度通常更高。

例如,可以只选择一个元素n在极端情况下进行替换采样的次数。这可能导致对感兴趣的总体参数的估计非常不精确。这种情况是不可能在不更换的情况下进行采样的。因此,对于通过无放回抽样得出的估计值,方差通常较低。

我不认为这里的答案是完全足够的,他们似乎在争论你的数据量非常低的极限情况。

有了足够大的样本,这根本不用担心,尤其是在有许多自举重采样(~1000)的情况下。如果我从真实分布中采样了一个大小为 10,000 的数据集,并且我替换重新采样了 1,000 次,那么我获得的方差(与我通过进行替换获得的方差相反)完全可以忽略不计。

我想说更准确的答案是:在估计二阶统计量的置信度时,重采样而不放回是必不可少的。例如,如果我使用引导程序来估计我在色散测量中的不确定性。用替代品绘制这样的数量可能会人为地将回收的分散体偏低。

有关真实数据的具体示例,如果您愿意,请参阅本文 https://arxiv.org/abs/1612.02827

它在第 10 页简要讨论了您的问题

我有一个结果,它实际上将没有替换的情况视为替换,并消除了所有困难。请注意,替换计算要容易得多。因此,如果一个概率涉及 p 和 q,成功和失败的概率,在有替换的情况下,在没有替换的情况下,相应的概率只需将 p^aq^b 替换为 (Nab)C(Ra) 即可获得任意 a 和 b,其中 N、R 是球的总数和白球的数量。请记住,p 被视为 R/N。

巴拉苏布拉曼尼安