从 1% 的样本中估计误差

机器算法验证 估计 采样 重采样
2022-04-17 03:05:33

假设我们决定从一个群体中抽取 1% 的随机样本(没有替换)来估计有多少人有某种状况。

然后我们观察到样本中的X个个体具有这种情况(例如 800)。

我们知道的就这些。我们不知道样本的大小、人口或其他任何事情。

我们能说什么:

  1. 人群中有多少人患有这种疾病?
  2. 估计误差?
2个回答

显然,对患有这种疾病的人口数量的良好(无偏)估计是X/(1%)=100X.

X有一个二项分布——但我们不知道它的参数,因为我们缺乏关于人口规模的信息(除了知道它至少是800/(1%)=800×100=80000)。如果我们假设人口中患有这种疾病的人的比例很小,那么非常近似X具有泊松分布。对抽样标准差的良好估计X是它的平方根。如果这个未知比例很大,那么抽样标准差为X将小于它的平方根:所以让我们保守地使用平方根来确保我们产生的置信区间不会过窄。

又是因为X很大,它的采样分布也将近似于正态。因此,要找到置信度的两侧置信区间100100α%, 找到上100100α%标准正态分布的百分位数为Z1α/2并形成区间

CI=[100(XZ1α/2X),100(X+Z1α/2X)].

这至少有一个100100α%覆盖真实值的机会。

X=800α=0.05(为一个95%置信区间),Z1α/2=1.96并且间隔是

CI=[74456,85544].

为了更深入地了解这个结果,我们可能会要求计算机绘制 CI 的极限(使用二项分布的正态近似)作为总体规模的函数。可能的最小尺寸是80000,所以让我们将任何潜在的人口规模表示为这个最小值的倍数。

数字

保守的 95% 限制绘制为水平灰线,而二项式限制绘制为红色曲线。您可以看到二项式区间很快接近极限:除非人口中的大多数人都有这种情况,否则保守区间不会太宽。

可以为无需替换的采样生成类似的图:左侧的间隔会更窄,但到倍数达到时10或更大,这两个地块之间几乎没有区别。

假设我们有一个人口N伯努利试验,但N是未知的。假设(示例中为 0.01)是已知的,我们绘制一个大小为(未知)的简单随机样本。试验中观察到次成功(已知) 。我们想估计次试验的成功次数。α[0,1]αNXαNKN

由于抽样没有放回,遵循超几何分布,总体大小为,样本大小为,成功次数您可以以贝叶斯方式估计,将先验放在的最大似然估计(如您所料,这可能是)。XNαNKKNKKX/α

当然,如果不知道真实值,就无法计算估计值与真实值之间的误差。您可以使用可信区间(在贝叶斯情况下)或自举置信区间(在 MLE 情况下)来了解估计的不确定性。