如何使用置信区间找到百分比内的真实均值

机器算法验证 置信区间 自习
2022-04-03 18:12:22

我正在为我的统计作业做一个练习题。我们使用置信区间来找到真实均值所在的范围。我无法理解如何找到所需的样本量来估计像 +- 0.5% 这样的真实平均值。

我了解当范围以数字形式给出时如何解决问题,例如 +- 0.5 mm。我如何处理百分比?

2个回答

我不确定正在审计哪种变量,所以我提供了 2 个替代方案:

  1. 为了能够计算所需的样本量以对连续变量(=给定的置信区间)给出可接受的估计,您必须知道一些参数:均值、标准差(准确地说:总体规模)。如果你不知道这些,你必须能够对那些给出准确的估计(例如基于过去的研究)。 其中是样本大小,的标准正态分布表中选择的是标准差。

    n=(ZcσE)2,
    nZcασ

  2. 我可以想象正在检查的变量是一个离散变量,置信区间显示有多少百分比的人口将根据样本(比例)选择一个类别。这样,可以很容易地计算所需的样本量:其中是样本量,是总体比例,的标准正态分布表中选择的是误差范围。

    n=p(1p)(ZcE)2
    npZcαE

注意:您也可以找到很多在线计算器(例如)。这篇文章值得一读。

这个问题似乎有点奇怪,因为似乎没有关键统计数据,或者如果有,它不是通常的 Z 或 T 统计数据。

这就是为什么我认为是这种情况。

估计人口均值的问题,比如说μ, 内±0.5% 显然取决于μ(关键统计数据不依赖于μ)。估计μ在绝对数量之内,比如说±1、与实际值无关μ(在正态分布的情况下)。换句话说,标准“Z”置信区间的宽度不取决于μ,它只取决于总体标准差,比如说σ,样本量n,置信水平,用Z值表示。可以称这个区间的长度L=L(σ,n,Z)=2σZn

现在我们想要一个区间0.01μ宽(两边等长μ)。所以我们需要求解的方程是:

L=0.01μ=2σZn

重新安排 n 给出

n=(2σZ0.01μ)2=40,000Z2(σμ)2

使用 Z=1.96 获得 95% CI 给出

n=153,664(σμ)2

所以你需要一些关于比率的先验信息σμ(通过“先验信息”,我的意思是您需要了解有关比率的信息σμ为了解决问题)。如果σμ无法确定,那么“最佳样本量”也无法确定。从这里开始的最好方法是指定一个概率分布σμ然后取期望值(σμ)2并将其代入上述等式。

如果我们只需要会发生什么±0.005(而不是±0.005μ) 就是它μ在上述方程中,n 消失了。