可以使用什么统计模型或算法来解决约翰·斯诺霍乱问题?

机器算法验证 贝叶斯 空间的 流行病学 地理信息系统
2022-02-01 18:43:11

我有兴趣学习如何根据约翰·斯诺霍乱爆发的数据开发某种震中的地理近似值。在事先不知道井的位置的情况下,可以使用什么统计模型来解决这样的问题。

作为一个普遍的问题,您将获得时间、已知点的位置以及观察者的步行路径。我正在寻找的方法将使用这三件事来估计“爆发”的震中。

2个回答

不是给出完整或权威的答案,只是为了激发想法,我将报告我十年前在空间统计课程中为实验室练习所做的快速分析。目的是查看与使用欧几里德距离相比,准确计算可能的旅行路径(步行)会对相对简单的探索方法产生什么影响:核密度估计。密度的峰值(或峰值)相对于手柄除雪的泵在哪里?

使用 Snow 地图(经过适当地理参考)的相当高分辨率的栅格表示(2946 行 x 3160 列),我将地图上显示的数百个黑色小棺材中的每一个都数字化了(在 309 个地址找到其中的 558 个),将每个棺材分配给街道的边缘与其地址相对应,并按地址汇总为每个位置的计数。

输入数据的点图

经过一些图像处理以识别街道和小巷后,我进行了仅限于这些区域的简单高斯扩散(在 GIS 中使用重复的焦点方法)。这是KDE。

结果不言自明——甚至几乎不需要一个传说来解释它。(该地图显示了许多其他泵,但它们都位于该视图之外,该视图侧重于密度最高的区域。)

斯诺的地图以颜色显示密度。

在 [1,§3.2] 中,David Freedman对您的问题提出了一个基本上否定的答案。也就是说,没有(单纯的)统计模型或算法可以解决约翰·斯诺的问题。斯诺的问题是提出一个批判性论据,支持他的霍乱是一种水传播传染病的理论,反对当时盛行的瘴气理论([1] 中的第 3 章,标题为“统计模型和鞋革”,也可在此处以先前发布的形式 [2] 获得。)

在这短短的几页 [1, pp.47-53] 中,其中大部分是约翰·斯诺本人的引述,弗里德曼认为“斯诺在 1853-54 年实际所做的事情甚至比[布罗德的寓言”更有趣。街泵]。” 就编组统计证据而言(此外还讨论了其他初步措施,例如索引案例识别等),斯诺利用自然变化来实现真正非凡的准实验。

原来,在更早的时候,伦敦的供水公司之间存在着激烈的竞争,这导致了供水的空间混合,这是(用斯诺的话)“最亲密的那种”。

每家公司的管道都通向所有街道,几乎进入所有的庭院和小巷。在水务公司积极竞争时,根据业主或占用人的决定,一个公司提供一些房屋,另一个公司提供一些房屋。

...

由于接受这两家供水公司供水的房屋或人员,或他们周围的任何物理条件都没有任何区别,显然无法设计任何实验来更彻底地测试供水对霍乱进展的影响远不止于此,这些情况摆在观察者面前。

——约翰·斯诺

John Snow 在这个准实验中利用的另一个非常重要的“自然变化”是,一家自来水公司的取水口位于泰晤士河下游的污水排放口,而另一家则在几年前将取水口迁至上游我会让你猜哪个是 John Snow 的数据表中的哪个!

                     | 数量 | 霍乱 | 每人死亡
公司 | 房子| 高分辨率照片| CLIPARTO 死亡 | 10,000 间房屋
-------------------------------------------------- --------
南华和沃克斯豪尔 | 40,046 | 第1263章 315
兰贝斯 | 26,107 | 98 | 37
伦敦其他地区 | 256,423 | 1422 | 59

正如弗里德曼枯萎地指出的那样,

作为一项统计技术,【上表】绝不是了不起的。但它讲述的故事非常有说服力。论证的力量源于先前推理的清晰性、许多不同证据的汇集以及斯诺愿意使用的鞋革数量来获取数据。[1, p.51]

斯诺利用的另一点自然变化发生在时间维度上:上述取水口搬迁发生两次流行病之间,使斯诺能够比较同一家公司的水添加和不添加污水。(感谢 [1] 的一位作者 Philip B. Stark通过 Twitter获取此信息。请参阅他的此在线讲座。)


正如本答案所讨论的,这件事还为演绎主义归纳主义之间的对比提供了有益的研究

  1. Freedman D、Collier D、Sekhon JS、Stark PB。统计模型和因果推理:与社会科学的对话。剑桥; 纽约:剑桥大学出版社;2010 年。

  2. 弗里德曼 DA。统计模型和鞋革。社会学方法论1991;21:291-313。doi:10.2307/270939。全文