假设我们决定从一个群体中抽取 1% 的随机样本(没有替换)来估计有多少人有某种状况。
然后我们观察到样本中的X个个体具有这种情况(例如 800)。
我们知道的就这些。我们不知道样本的大小、人口或其他任何事情。
我们能说什么:
- 人群中有多少人患有这种疾病?
- 估计误差?
假设我们决定从一个群体中抽取 1% 的随机样本(没有替换)来估计有多少人有某种状况。
然后我们观察到样本中的X个个体具有这种情况(例如 800)。
我们知道的就这些。我们不知道样本的大小、人口或其他任何事情。
我们能说什么:
显然,对患有这种疾病的人口数量的良好(无偏)估计是.
有一个二项分布——但我们不知道它的参数,因为我们缺乏关于人口规模的信息(除了知道它至少是)。如果我们假设人口中患有这种疾病的人的比例很小,那么非常近似具有泊松分布。对抽样标准差的良好估计是它的平方根。如果这个未知比例很大,那么抽样标准差为将小于它的平方根:所以让我们保守地使用平方根来确保我们产生的置信区间不会过窄。
又是因为很大,它的采样分布也将近似于正态。因此,要找到置信度的两侧置信区间, 找到上标准正态分布的百分位数为并形成区间
这至少有一个覆盖真实值的机会。
和和(为一个置信区间),并且间隔是
为了更深入地了解这个结果,我们可能会要求计算机绘制 CI 的极限(使用二项分布的正态近似)作为总体规模的函数。可能的最小尺寸是,所以让我们将任何潜在的人口规模表示为这个最小值的倍数。
保守的 95% 限制绘制为水平灰线,而二项式限制绘制为红色曲线。您可以看到二项式区间很快接近极限:除非人口中的大多数人都有这种情况,否则保守区间不会太宽。
可以为无需替换的采样生成类似的图:左侧的间隔会更窄,但到倍数达到时或更大,这两个地块之间几乎没有区别。
假设我们有一个人口伯努利试验,但是未知的。假设(示例中为 0.01)是已知的,我们绘制一个大小为(未知)的简单随机样本。试验中观察到次成功(已知) 。我们想估计次试验的成功次数。
由于抽样没有放回,遵循超几何分布,总体大小为,样本大小为,成功次数为您可以以贝叶斯方式估计,将先验放在和的最大似然估计(如您所料,这可能是)。
当然,如果不知道真实值,就无法计算估计值与真实值之间的误差。您可以使用可信区间(在贝叶斯情况下)或自举置信区间(在 MLE 情况下)来了解估计的不确定性。