鉴于:
每 100,000 人的粗发病率:164
人口:211,101
95% 置信区间:147-182
发病率的标准差是多少:
我的计算:标准误差:(182-147) / (2 x 1.96) = 8.93
标准差 = 8.93 x sqrt(211,101) = 4103
这不可能,而且我认为这必须与100,000有关
这是正确的吗:标准偏差 = 8.93 x sqrt(211,101/100000) = 12.98
? 非常感谢 !
鉴于:
每 100,000 人的粗发病率:164
人口:211,101
95% 置信区间:147-182
发病率的标准差是多少:
我的计算:标准误差:(182-147) / (2 x 1.96) = 8.93
标准差 = 8.93 x sqrt(211,101) = 4103
这不可能,而且我认为这必须与100,000有关
这是正确的吗:标准偏差 = 8.93 x sqrt(211,101/100000) = 12.98
? 非常感谢 !
问题中的计算支持使用二项式模型的假设。 这将这些事件视为好像从有数百万张纸条的帽子中随机抽取了 211,101 张纸条(远远超过观察到的数量)。在每个单据上绘制一个(“事件”)或。显然,总共个事件。
这个总数足够大,可以让我们估计帽子中所有都标有 1。这是帽子期望值的估计值。概率论告诉我们,从这顶帽子抽出的次观察到的总数的方差。它的平方根是次抽签总数的标准差。(“大约”黄鼠狼围绕一个潜在的但可能很小的“有限人口”调整,当幻灯片没有被替换时。)
作为的未知值的代理,我们有估计值。使用信息和我们得到(估计的)标准偏差()等于。次事件的预期总数相比,这似乎很高,但它是正确的:具有罕见结果的二项式分布高度偏斜。
这个标准偏差本身通常不会被解释,但它对于构建置信区间和其他与机会结果相关的数量很有用。例如,样本均值的标准误差是通过将的根获得的。取给出的标准误差为 =。
我们看到这些结果与问题本身的计算密切相关,从置信区间推断出标准误差为。如果我们能够窥视帽子并将其所有票的价值相加,我们预计结果将介于到倍之间。在推断这一点时,我使用了一个程序(95% CI),最多有 5% 的时间会欺骗我(由于 211,101 次随机抽签的偶然行为)。
同样,N 100000平局的标准误差。这是问题结束时计算出来的。这意味着根据我们目前所看到的情况,我们预计在这顶帽子的另外次抽签中观察到的事件数量将与次不同(仅由于偶然性),但仅次左右。比这大得多的差异(例如,小于或大于)会令人惊讶。(这是一个预测区间 . 它比置信区间更宽,因为它不仅需要考虑已经观察到的 211,101 个结果中的机会元素,这使我们对的真实值有些不确定,而且还需要考虑 100,000 个未来结果中的机会元素.)
我会以不同的方式回答。
如果您谈论的是测量(比率或区间)数据,那么数据的标准偏差测量分散,平均值的标准误差量化了该平均值的精确度(从其样本量和 SD)。两者非常不同。使用原始海报使用的等式从一个转换为另一个很简单。
但这些数据是二项式的。有两种结果(是否有新病例),发病率是今年(或他们使用的任何时间单位)感染病例的人的比例。可以计算从假设来自(或代表)更大总体的数据样本中计算出的几乎任何值的标准误差。在这种情况下,计算比例的标准误差是非常有意义的,就像 OP 所做的那样。
然后 OP 和 WHuber 计算了预期病例数的 SD ,即 4103 或 4046(我没有试图弄清楚为什么这两个计算不相同)。这是您期望在 211,101 人中看到的病例数的 SD。它不是发病率的标准差。
发病率确实没有标准差。或者,更准确地说,当目标是量化计算参数(如速率)的精度时,标准偏差和标准误差实际上是一回事。例如,平均值的标准误差可以被认为是平均值的标准差。相同值的两个术语。该值与数据的标准偏差非常不同。同样,比例的标准误差与比例的标准差相同。不同之处在于,在这种情况下很少使用术语标准偏差。
我的答案。发病率的标准差为 8.93/100,000。