机器算法验证 - 从 1% 的样本中估计误差 - 吾爱随笔录

从 1% 的样本中估计误差

机器算法验证估计采样重采样

2022-04-17 03:05:33

假设我们决定从一个群体中抽取 1% 的随机样本（没有替换）来估计有多少人有某种状况。

然后我们观察到样本中的X个个体具有这种情况（例如 800）。

我们知道的就这些。我们不知道样本的大小、人口或其他任何事情。

我们能说什么：

人群中有多少人患有这种疾病？
估计误差？

2个回答

显然，对患有这种疾病的人口数量的良好（无偏）估计是 $X/(1\%)=100X$ .

$X$ 有一个二项分布——但我们不知道它的参数，因为我们缺乏关于人口规模的信息（除了知道它至少是 $800/(1\%)=800\times100=80000$ ）。如果我们假设人口中患有这种疾病的人的比例很小，那么非常近似 $X$ 具有泊松分布。对抽样标准差的良好估计 $X$ 是它的平方根。如果这个未知比例很大，那么抽样标准差为 $X$ 将小于它的平方根：所以让我们保守地使用平方根来确保我们产生的置信区间不会过窄。

又是因为 $X$ 很大，它的采样分布也将近似于正态。因此，要找到置信度的两侧置信区间 $100-100\alpha\%$ , 找到上 $100-100\alpha\%$ 标准正态分布的百分位数为 $Z_{1-\alpha/2}$ 并形成区间

C I = [100 (X - Z_{1 - α / 2} \sqrt{X}), 100 (X + Z_{1 - α / 2} \sqrt{X})] .

$CI = [100(X -Z_{1-\alpha/2}\sqrt{X}), 100(X + Z_{1-\alpha/2}\sqrt{X})].$

这至少有一个 $100-100\alpha\%$ 覆盖真实值的机会。

和 $X=800$ 和 $\alpha=0.05$ （为一个 $95\%$ 置信区间）， $Z_{1-\alpha/2} = 1.96$ 并且间隔是

C I = [74456, 85544] .

$CI = [74456, 85544].$

为了更深入地了解这个结果，我们可能会要求计算机绘制 CI 的极限（使用二项分布的正态近似）作为总体规模的函数。可能的最小尺寸是 $80000$ ，所以让我们将任何潜在的人口规模表示为这个最小值的倍数。

保守的 95% 限制绘制为水平灰线，而二项式限制绘制为红色曲线。您可以看到二项式区间很快接近极限：除非人口中的大多数人都有这种情况，否则保守区间不会太宽。

可以为无需替换的采样生成类似的图：左侧的间隔会更窄，但到倍数达到时 $10$ 或更大，这两个地块之间几乎没有区别。

假设我们有一个人口 $N$ 伯努利试验，但 $N$ 是未知的。假设（示例中为 0.01）是已知的，我们绘制一个大小为（未知）的简单随机样本。试验中观察到次成功（已知）。我们想估计次试验的成功次数。 $α ∈ [0, 1]$ $αN$ $X$ $αN$ $K$ $N$

由于抽样没有放回，遵循超几何分布，总体大小为，样本大小为，成功次数为您可以以贝叶斯方式估计，将先验放在和的最大似然估计（如您所料，这可能是）。 $X$ $N$ $αN$ $K$ $K$ $N$ $K$ $K$ $X/α$

当然，如果不知道真实值，就无法计算估计值与真实值之间的误差。您可以使用可信区间（在贝叶斯情况下）或自举置信区间（在 MLE 情况下）来了解估计的不确定性。

其它你可能感兴趣的问题

上一篇神经网络中的分类和回归之间有什么关系？下一篇处理带有 U 标记的化学数据的标准做法