关于冠状病毒爆发的统计数据能告诉我们什么吗?

机器算法验证 参考 趋势
2022-04-04 21:31:11

我们在新闻中到处都能听到关于冠状病毒感染、死亡和康复的数量。

在许多出版物中,数字(尤其是感染)与前几天进行了比较。大部分呈现的数字是新感染的“增长”百分比和迄今为止的感染总数。然后显示不同国家的数量。

我试图从这些(感染)数字中得到一些东西,并意识到一些重要的信息没有被告知:完成的测试数量。更进一步,谁接受了测试?哪些标准?这在不同国家之间差异很大。然后是测试的准确性。

由于超载或工作限制,每天进行的测试的数量和种类都在变化,并且创建了更多容量或可用容量减少。

我告诉自己,死亡人数,尽管听起来很可怕,但却是稳定或衰退的一个很好的指标。但是,不,人们对他们以前的医疗状况的影响并不相同。在某个时间点,处于危险中的人会“消失”(再次为这个词的选择感到抱歉)。

我有一种感觉,我们无法收集有关这种流行病的太多变量和因素(至少目前是这样),以至于统计数据已达到极限。宣布的趋势很可能是错误的。

在当前情况下,我们对统计数据有多大把握?趋势是否可行?什么可以比较什么不可以?所有当前的信息都是没有根据的吗?

1个回答

不要让完美成为美好的敌人

您提出的许多问题都是完全合理的担忧。话虽如此,重要的是区分报告数据错误的情况与报告数据正确但由于遗漏其他相关信息而限制其使用的情况。后一种情况在统计分析中确实非常普遍,因为我们拥有理想情况下想要拥有的所有数据是非常罕见的。在这种情况下,同样重要的是,不要假设我们想知道的每个变量都缺乏全面的数据集,从而排除了从我们拥有的数据中做出的任何合理推论,从而使完美成为善的敌人,这一点也很重要。

我们可用于 COVID-19 病毒的主要综合公共数据集是约翰霍普金斯大学约翰霍普金斯冠状病毒资源中心持有和更新的数据。这是用于绝大多数媒体报道和有关 COVID-19 传播的数据可视化的数据存储库。该数据库包含有关确诊感染、康复和死亡的数据,以及有关这些事件发生地点的 GIS 数据。这些数据来自世界卫生组织和各个国家卫生部门,并且经常更新。

当然,理想情况下,我们还希望获得很多其他信息,以帮助了解病毒的传播路径和严重程度。正如您所建议的,如果我们也能获得一个关于所有实际进行的测试(包括阴性结果)的综合数据集,以及所有受影响患者的特征,包括他们的年龄、性别和健康因素,那就太好了. 在这个早期阶段,期望收集和整理所有这些数据可能过于雄心勃勃,但希望世界各个卫生部门最终能够将其中一些数据汇集在一起​​。卫生部门不能以可以识别特定患者的方式合法地披露特定患者的健康信息,因此,如果目标是让这些数据可用于公共分析,那么整理此类数据是一项极其复杂的任务。毫无疑问,会付出一些努力来获取和整理更详细的数据,但这将是一项艰巨的任务。

在解释有限的数据时,最好以一种清楚地说明数据收集方式的方式描述这些数据,并且这种收集机制形成了对分析的警告。因此,我们可以参考每个报告国家报告的感染、康复、死亡等数字,同时注意这些数字与实际真实数字可能存在差异。世界上大多数卫生部门的设置都是为了能够以合理的准确性获得这些数字,因此报告的数字与真实值之间不太可能出现大的差异,除非一些国家故意努力压制这些信息。尽管缺乏您想要的理想数据,但从报告的数据中,我们肯定可以合理推断出一些事情。对于大多数国家来说,淘汰那些经过适当测试的人(当然,我拿一些数据,比如最近来自中国的数据,有很大的怀疑。)也有可能还有其他感染和康复的人没有经过检测,因此没有进行检测。构成报告统计数据的一部分。即便如此,这些数据还是让我们很好地了解了全球各个城市和国家的感染增长率,这使我们能够看到病毒在哪里发展最快,以及在哪里相对得到控制。这些数字还允许进行一些外推尝试,这使卫生当局能够预测未来可能发生的病例数量,以及这将在不同地方造成的健康负担。

您的问题似乎断言,由于缺乏其他因素(例如总检测和患者健康)的数据,这些趋势中的大多数可能是“错误的”。在我看来,这不是正确的看待它的方式。相反,在有限的描述性意义上,报告的趋势可能是正确的,但可能仍然存在潜在的未报告因素,这些因素可能会导致有理由预测这些趋势的未来变化。就个人而言,我对这些不同组织协调大型数据整理并公开在线平台报告感染并频繁更新的速度印象深刻。我可以每天登录并查看更新的图形信息,显示世界上几乎任何城市或国家的感染进展!数据可能不完美,但我认为它与现实的相似之处足以成为有价值的信息。我认为这种努力是相当惊人的,它远远超过了我们十年前所能做到的。