样本量的 10% 规则

机器算法验证 样本量 独立 假设 小样本
2022-04-17 01:02:31

在 Nicole Radziwill 的一本介绍性统计书“使用 R 的统计(更简单的方法)”中,几乎所有统计测试(egt-tets、anova 等)都使用的假设是样本量不应超过样本量的 10%人口规模(已知人口规模)。

我还没有在其他介绍性统计书籍中看到它。我的问题是:这个假设有多重要,它的原因是什么?

作者没有说这是从哪里来的(至少据我所知)。一些谷歌搜索表明它指的是制作一个没有替换的简单随机样本,如果样本量高于 10%,那么观察将不会(大约)独立,并且观察的独立性是大多数教科书中规定的假设。

如果您的人口较少(例如 <50),您是否应该放弃此假设,因为它会导致样本量太小而无法获得适当的可变性估计并检查其他假设(例如正态性)。

感谢您的任何见解。

2个回答

在使用基础分布参数的统计模型中,这些参数对应于无限人口(称为“超人口”)的经验分布的各个方面。因此,对于处理模型参数的统计检验和置信区间,我们隐含地对与无限总体相关的数量进行推断。如果我们希望对与有限总体相关的数量进行推断,这通常通过对标准检验和置信区间进行调整来完成,称为有限总体校正(FPC)。

当我们有个单位的有限总体时,FPC 术语“消失”为,反映了该术语是对情况的“调整”这一事实。此外,在大多数应用中,FPC 项往往由采样值的比例决定NNNN=--- 当这接近零时,相关方程中的术语“消失”。您正在阅读的这本书的作者可能认为,当样本值在总体中的比例小于 10% 时,FPC 调整足够小,可以安全地忽略,而当它大于 10% 时,足够大,不容忽视。这是一种武断的划分,我真的看不出有任何意义。在我看来,当你对有限的人口进行推断时,不管它的大小如何,最好只使用 FPC。


一个应用示例:假设您观察数据点并希望获得总体平均值的置信区间。如果您使用标准置信区间作为基础分布的平均参数(隐含无限超群的平均值),那么您的区间具有以下形式:n

CI(1α)=[x¯±tn1,α/2ns].

但是,我们可以在该公式中添加“有限总体校正”项,以获得个单位的有限总体均值的置信区间:N

CI(1α)=[x¯±NnNtn1,α/2ns].

您可以看到 FPC 项是一个乘法项,等于总体中未抽样值比例的平方根随着未采样的比例接近 1(并且采样的比例接近零),因此 FPC 术语“消失”。您还可以看到,后一个公式为您提供了一个允许任何采样比例的置信区间,因此没有必要提出一个“经验法则”来确定采样比例应该有多低。N

现在,当我们对 10% 的人口进行抽样时,FPC 项为,显然您的书的作者认为这已经足够接近可以安全忽略的值(但如果样本比例高于 10% 则调整不容忽视)。您的书的作者本质上是在断言“经验法则” --- if then,这意味着您可以采用而不会出现严重错误。正如我上面所说,我的偏好是避免任何此类规则,并在对有限总体进行推断时简单地使用 FPC 术语。0.90.9487n/N0.9FPC0.9487FPC=1

如果您在没有放回的情况下对有限总体进行抽样,那么您就不是独立抽样;您在样本中的新观察结果避免了以前抽样的案例。

这通常是一件好事!

但是,如果您使用基于假设独立性的计算,您将高估方差(而不是您正在执行的抽样公式),这将影响 CI 和测试的属性。另一方面,如果您的样本只占人口的一小部分,这几乎没有什么区别。人们使用的一个常见经验法则是,如果标准偏差被高估小于:约 5%,则忽略它。

这对应于您提到的 10% 规则。

另请参阅有限总体校正