计数的标准误

机器算法验证 泊松分布 标准错误 计数数据
2022-01-30 11:24:46

我有一个按季节划分的罕见病病例数据集。例如,假设春季有 180 例,夏季有 90 例,秋季有 45 例,冬季有 210 例。我正在为是否适合将标准错误附加到这些数字而苦苦挣扎。从某种意义上说,研究目标是推论性的,因为我们正在寻找可能在未来再次发生的疾病发病率的季节性模式。因此,直觉上感觉应该可以将不确定性的度量附加到总数中。但是,我不确定在这种情况下如何计算标准误差,因为我们处理的是简单计数,而不是例如平均值或比例。

最后,答案是否取决于数据是代表病例群(每一个曾经发生过的病例)还是随机样本?如果我没记错的话,用人口统计数据呈现标准误差通常是没有意义的,因为没有推论。

2个回答

人口是所有有患病风险的人的(假设的)集合;通常,它由居住在研究区域内的所有人(或某些可明确识别的子群体)组成。明确定义这一人群很重要,因为它是研究的目标,也是从数据中得出的所有推论的目标。

当疾病病例是独立的(当疾病不易在人与人之间传播并且不是由当地环境条件引起时,这可能是一个合理的假设)并且它们很罕见,那么计数应该密切遵循泊松分布对于此分布,对其标准差的良好估计是 count 的平方根

使用这些启发式方法,数据将具有的相关标准偏差,我们可以暂时将其作为对错误的粗略评估。从概念上讲,每个季节都有一个假设的真实疾病发病率——在那个季节,人群中的每个人感染疾病的风险都相同(低)——但是因为患上这种疾病被认为是随机事件,所以实际一个季节中观察到的疾病数量将与真实比率不同。真实(但未知!)率的平方根量化了可能发生的变化量。因为观察到的计数应该(180,90,45,210)(13.4,9.5,6.7,14.5)为了接近真实利率,它们的平方根应该是真实利率平方根的合理代理。这些代理正是“标准错误”的含义。

关于此计算,首先要注意的是计数之间的变化(范围为,标准偏差为)比不超过的单个 SD 大得多。这证实了基础利率随着季节的变化而显着变化:这是意料之中的。因此,报告这批数据的 SD 为可能有助于指示季节性变化的幅度,但与指示值的标准误差无关。1657714.577

但是如果数据不是独立的呢?疾病暴发通常成群发生。例如,如果一个典型的集群大小是,那么这些数据(大约)分别反映个集群。如果我们将这些视为四个泊松变量的实现,并使用它们的平方根来估计 SD,我们得到乘以以从​​集群转换为人员得到注意这些值比以前大了多少:聚类会增加相对误差。9(20,10,5,23)(4.5,3.2,2.2,4.8)9(40,28.5,20,44)

就这些有限的数据而言,这大约是可以做到的。这些简单的计算表明:

  • 表征人口是至关重要的,

  • 计数的平方根是评估其标准误差的粗略起点,

  • 平方根必须(大致)乘以某个因子以反映疾病病例缺乏独立性(并且该因子可能与疾病集群的大小大致相关),

  • 这些计数之间的变化主要反映了疾病率随时间的变化,而不是不确定性(关于潜在的泊松强度)。

当我问“什么的标准错误?”时,我并不是在开玩笑。您可以取这四个数字的平均值,然后计算该平均值的标准误差。如果您认为您有理由将这 4 个季节视为您可能推广到的所有 4 个季节集合的代表,那么该统计数据和由此产生的置信区间将是有意义的。就你的理由而言,你所拥有的数据确实是人口的随机样本。您提到的抽样将需要额外的抽样层-您可以将其称为集群抽样,其中每年构成一个集群。