机器算法验证 - 考虑人口规模的比例标准误 - 吾爱随笔录

机器算法验证标准错误部分

2022-03-20 17:32:44

之外，是否有另一种方法来估计比例的标准误差，其中考虑了估计的总人口规模？ $\sqrt{p(1-p)/n}$

例如，如果我从 100 个人口中抽取 100 个样本，我的标准误差应该为 0。如果我从 10 亿个样本中抽取 100 个样本，它应该有更高的误差。

我在博客中读到，当人口至少比样本大 10 倍时，应该使用上面的公式，但我不知道这是从哪里来的，或者它是否属实，或者如果调查接近那个会发生什么1/10 样品。

1个回答

如果您是从有限总体中随机抽样而不进行替换，那么您不是处于二项式抽样情况，而是处于超几何抽样情况。

当您处于人口比例的二项式情况时，计数的方差为，因此样本比例的方差为。然后将该比例的方差估计为。 $\pi$ $X$ $n\pi(1-\pi)$ $p=X/n$ $n\pi(1-\pi)/n^2=\pi(1-\pi)/n$ $p(1-p)/n$

的有限总体中无放回地抽样的情况下，计数具有方差。 $n$ $N$ $n{K\over N}{\frac{N-K}{N}}{N-n\over N-1}$

由于是总体比例，我们可以将计数的方差写为。 $\pi=K/N$ $X$ $n\pi(1-\pi){N-n\over N-1}$

所以样本比例的方差可以写成其中。 $\frac{\pi(1-\pi)}{n}\cdot f$ $f={N-n\over N-1}$

由于，此方差小于二项式情况（如您所建议）。 $f<1$

$f$ 被称为“有限总体校正”（因为您可以使用它来“校正”从二项式获得的方差），但正如您所见，它只是使用正确（即超几何）概率模型的方差。

当然，要纠正标准误差而不是方差，您必须取该因子的平方根（即）。 $\sqrt{{N-n\over N-1}}$

我在博客中读到，当总体至少比样本大 10 倍时，应该使用上面的公式

我会说“应该使用”太强了。虽然可以使用二项式公式，但有限总体校正因子始终是正确的 - 但是当样本是总体的一小部分时，校正因子将接近 1，因此如果将其排除在外，几乎没有什么危害。

如果调查接近该 1/10 样本会发生什么

让我们看看当样本是人口的十分之一时会发生什么。

$f=\frac{N-n}{N-1} = \frac{0.9N}{ N-1} \approx 0.9$

因此，对标准误差的修正约为，约为如果您忽略它，您的标准误差将大约太大。 $\sqrt{0.9}$ $0.95.$ $5.4\%$

由您决定标准误差中的不准确程度是否可以接受。

其它你可能感兴趣的问题