不要让完美成为美好的敌人
您提出的许多问题都是完全合理的担忧。话虽如此,重要的是区分报告数据错误的情况与报告数据正确但由于遗漏其他相关信息而限制其使用的情况。后一种情况在统计分析中确实非常普遍,因为我们拥有理想情况下想要拥有的所有数据是非常罕见的。在这种情况下,同样重要的是,不要假设我们想知道的每个变量都缺乏全面的数据集,从而排除了从我们拥有的数据中做出的任何合理推论,从而使完美成为善的敌人,这一点也很重要。
我们可用于 COVID-19 病毒的主要综合公共数据集是约翰霍普金斯大学约翰霍普金斯冠状病毒资源中心持有和更新的数据。这是用于绝大多数媒体报道和有关 COVID-19 传播的数据可视化的数据存储库。该数据库包含有关确诊感染、康复和死亡的数据,以及有关这些事件发生地点的 GIS 数据。这些数据来自世界卫生组织和各个国家卫生部门,并且经常更新。
当然,理想情况下,我们还希望获得很多其他信息,以帮助了解病毒的传播路径和严重程度。正如您所建议的,如果我们也能获得一个关于所有实际进行的测试(包括阴性结果)的综合数据集,以及所有受影响患者的特征,包括他们的年龄、性别和健康因素,那就太好了. 在这个早期阶段,期望收集和整理所有这些数据可能过于雄心勃勃,但希望世界各个卫生部门最终能够将其中一些数据汇集在一起。卫生部门不能以可以识别特定患者的方式合法地披露特定患者的健康信息,因此,如果目标是让这些数据可用于公共分析,那么整理此类数据是一项极其复杂的任务。毫无疑问,会付出一些努力来获取和整理更详细的数据,但这将是一项艰巨的任务。
在解释有限的数据时,最好以一种清楚地说明数据收集方式的方式描述这些数据,并且这种收集机制形成了对分析的警告。因此,我们可以参考每个报告国家报告的感染、康复、死亡等数字,同时注意这些数字与实际真实数字可能存在差异。世界上大多数卫生部门的设置都是为了能够以合理的准确性获得这些数字,因此报告的数字与真实值之间不太可能出现大的差异,除非一些国家故意努力压制这些信息。尽管缺乏您想要的理想数据,但从报告的数据中,我们肯定可以合理推断出一些事情。对于大多数国家来说,淘汰那些经过适当测试的人。(当然,我拿一些数据,比如最近来自中国的数据,有很大的怀疑。)也有可能还有其他感染和康复的人没有经过检测,因此没有进行检测。构成报告统计数据的一部分。即便如此,这些数据还是让我们很好地了解了全球各个城市和国家的感染增长率,这使我们能够看到病毒在哪里发展最快,以及在哪里相对得到控制。这些数字还允许进行一些外推尝试,这使卫生当局能够预测未来可能发生的病例数量,以及这将在不同地方造成的健康负担。
您的问题似乎断言,由于缺乏其他因素(例如总检测和患者健康)的数据,这些趋势中的大多数可能是“错误的”。在我看来,这不是正确的看待它的方式。相反,在有限的描述性意义上,报告的趋势可能是正确的,但可能仍然存在潜在的未报告因素,这些因素可能会导致有理由预测这些趋势的未来变化。就个人而言,我对这些不同组织协调大型数据整理并公开在线平台报告感染并频繁更新的速度印象深刻。我可以每天登录并查看更新的图形信息,显示世界上几乎任何城市或国家的感染进展!数据可能不完美,但我认为它与现实的相似之处足以成为有价值的信息。我认为这种努力是相当惊人的,它远远超过了我们十年前所能做到的。