人口是所有有患病风险的人的(假设的)集合;通常,它由居住在研究区域内的所有人(或某些可明确识别的子群体)组成。明确定义这一人群很重要,因为它是研究的目标,也是从数据中得出的所有推论的目标。
当疾病病例是独立的(当疾病不易在人与人之间传播并且不是由当地环境条件引起时,这可能是一个合理的假设)并且它们很罕见,那么计数应该密切遵循泊松分布。对于此分布,对其标准差的良好估计是 count 的平方根。
使用这些启发式方法,数据将具有的相关标准偏差,我们可以暂时将其作为对错误的粗略评估。从概念上讲,每个季节都有一个假设的真实疾病发病率——在那个季节,人群中的每个人感染疾病的风险都相同(低)——但是因为患上这种疾病被认为是随机事件,所以实际一个季节中观察到的疾病数量将与真实比率不同。真实(但未知!)率的平方根量化了可能发生的变化量。因为观察到的计数应该(180,90,45,210)(13.4,9.5,6.7,14.5)为了接近真实利率,它们的平方根应该是真实利率平方根的合理代理。这些代理正是“标准错误”的含义。
关于此计算,首先要注意的是计数之间的变化(范围为,标准偏差为)比不超过的单个 SD 大得多。这证实了基础利率随着季节的变化而显着变化:这是意料之中的。因此,报告这批数据的 SD 为可能有助于指示季节性变化的幅度,但与指示值的标准误差无关。1657714.577
但是如果数据不是独立的呢?疾病暴发通常成群发生。例如,如果一个典型的集群大小是,那么这些数据(大约)分别反映个集群。如果我们将这些视为四个泊松变量的实现,并使用它们的平方根来估计 SD,我们得到。乘以以从集群转换为人员得到。注意这些值比以前大了多少:聚类会增加相对误差。9(20,10,5,23)(4.5,3.2,2.2,4.8)9(40,28.5,20,44)
就这些有限的数据而言,这大约是可以做到的。这些简单的计算表明: