我将描述统计学家如何解释计数数据。通过一点点练习,你也可以做到。
基本分析
当案例随机且独立地出现时,它们发生的时间可以用泊松过程合理准确地建模。 这意味着出现在任何预定区间内的病例数具有泊松分布。我们唯一需要记住的是它的方差等于它的期望。用不太专业的术语来说,这意味着该值可能与平均值不同的量(其标准误差)与平均值的平方根成正比。 (有关计数数据的平方根和一些相关转换的解释和讨论,请参阅为什么建议对计数数据进行平方根转换。)
在实践中,我们通过使用观察值来估计平均值。因此,
具有相等预期发生率的独立事件计数的标准误差是计数的平方根。
(对于非常小的计数,尤其是零计数,存在对该规则的各种修改,但这在本申请中不应该成为问题。)
就梵蒂冈城而言,每百万人中有 33,666 起案件的比率相当于
33666106× 802 = 27
案例。的平方根27是5(我们通常不需要担心这种分析的额外有效数字,这通常是在精神上和近似地完成的)。
等效地,这个标准误差是27--√案件出802人,相当于6500每百万。因此,我们有理由说明
梵蒂冈城的病例率为33666 ± 6500每百万。
这表明引用五个有效数字的利率是多么愚蠢。最好通过限制 sig figs 来确认较大的标准误差,如
观察到的梵蒂冈城病例率为34000 ± 6500每百万。
(不要犯只取比率平方根的错误! 在这个例子中,33,666 的平方根只有 183,这太小了。对于估计标准误差,平方根适用于计数,而不是比率。)
一个好的经验法则是在报告标准错误时使用一个额外的有效数字,就像我在这里所做的那样(病例率四舍五入到最接近的千位,其 SE 被四舍五入到最接近的 100)。
稍微细致一点的分析
病例不是独立的:人们从其他人那里捕捉到它们,并且由于人类不会像一瓶热气体中的原子一样在世界各地飞来飞去,因此病例会成群结队地发生。这违反了独立性假设。那么,真正发生的是,有效计数应该介于病例数和不同聚类数之间。我们无法知道后者:但它肯定小于(也许远小于)病例数。因此,
当事件(正)相关时,平方根规则给出了标准误差的下限。
您有时可以估计如何调整标准误差。例如,如果您猜测案例以十个左右的集群发生,那么您应该将标准误乘以十的平方根。一般来说,
正相关事件计数的标准误差非常粗略地是计数的平方根乘以典型集群大小的平方根。
这种近似是通过假设一个集群中的所有案例完全相关而产生的,否则任何两个不同集群中的案例都是独立的。
如果我们怀疑梵蒂冈城的病例是聚集的,那么在最极端的情况下它是一个单一的聚集:计数是1 、它的平方根是1 、因此,标准误差是一个完整的集群:即,大约27人们。如果您想谨慎地不要夸大数字的可靠性,那么您可能会认为梵蒂冈城的比率介于略高于零和可能低于每百万 70,000 之间(1 ± 1集群的27的人口802)。