从置信区间到标准差——我错过了什么?

机器算法验证 二项分布 标准差
2022-04-02 04:57:13

鉴于:

每 100,000 人的粗发病率:164

人口:211,101

95% 置信区间:147-182

发病率的标准差是多少:

我的计算:标准误差:(182-147) / (2 x 1.96) = 8.93

标准差 = 8.93 x sqrt(211,101) = 4103

这不可能,而且我认为这必须与100,000有关

这是正确的吗:标准偏差 = 8.93 x sqrt(211,101/100000) = 12.98

? 非常感谢 !

2个回答

分析

问题中的计算支持使用二项式模型的假设。 这将这些事件视为好像从有数百万张纸条的帽子中随机抽取了 211,101 张纸条(远远超过观察到的数量)。在每个单据上绘制一个(“事件”)或显然,总共个事件。10164/10000×211101=346

这个总数足够大,可以让我们估计帽子所有都标有 1。这是帽子期望值的估计值概率论告诉我们,从这顶帽子抽出的次观察到的总数的方差它的平方根是次抽签总数的标准差。(“大约”黄鼠狼围绕一个潜在的但可能很小的“有限人口”调整,当幻灯片没有被替换时。)164/10000p^ pNp(1p)NN

作为的未知值的代理,我们有估计值使用信息我们得到(估计的)标准偏差()等于次事件的预期总数相比,这似乎很高,但它是正确的:具有罕见结果的二项式分布高度偏斜。pp^p^=164/100000N=100000s^4046164100000

解释

这个标准偏差本身通常不会被解释,但它对于构建置信区间和其他与机会结果相关的数量很有用。例如,样本均值的标准误差是通过将的根获得的给出的标准误差为 =s^NN=2111014046/2111018.81

我们看到这些结果与问题本身的计算密切相关,从置信区间推断出标准误差为如果我们能够窥视帽子并将其所有票的价值相加,我们预计结果将介于倍之间。在推断这一点时,我使用了一个程序(95% CI),最多有 5% 的时间会欺骗我(由于 211,101 次随机抽签的偶然行为)。8.93147/100000182/100000

同样,N 100000平局的标准误差这是问题结束时计算出来的。这意味着根据我们目前所看到的情况,我们预计在这顶帽子的另外次抽签中观察到的事件数量将与次不同(仅由于偶然性),但仅次左右。比这大得多的差异(例如,小于或大于)会令人惊讶。(这是一个预测区间N10000012.80 10000016412.8125205. 它比置信区间更宽,因为它不仅需要考虑已经观察到的 211,101 个结果中的机会元素,这使我们对的真实值有些不确定,而且还需要考虑 100,000 个未来结果中的机会元素.)p

我会以不同的方式回答。

如果您谈论的是测量(比率或区间)数据,那么数据的标准偏差测量分散,平均值的标准误差量化了该平均值的精确度(从其样本量和 SD)。两者非常不同。使用原始海报使用的等式从一个转换为另一个很简单。

但这些数据是二项式的。有两种结果(是否有新病例),发病率是今年(或他们使用的任何时间单位)感染病例的人的比例。可以计算从假设来自(或代表)更大总体的数据样本中计算出的几乎任何值的标准误差。在这种情况下,计算比例的标准误差是非常有意义的,就像 OP 所做的那样。

然后 OP 和 WHuber 计算了预期病例数的 SD ,即 4103 或 4046(我没有试图弄清楚为什么这两个计算不相同)。这是您期望在 211,101 人中看到的病例数的 SD。它不是发病的标准差。

发病率确实没有标准差或者,更准确地说,当目标是量化计算参数(如速率)的精度时,标准偏差和标准误差实际上是一回事。例如,平均值的标准误差可以被认为是平均值的标准差。相同值的两个术语。该值与数据的标准偏差非常不同。同样,比例的标准误差与比例的标准差相同。不同之处在于,在这种情况下很少使用术语标准偏差。

我的答案。发病率的标准差为 8.93/100,000。