到目前为止,答案都集中在数据本身上,这对于所在的网站以及它的缺陷是有意义的。
但我是一名计算/数学流行病学家,所以我也会稍微谈谈模型本身,因为它也与讨论相关。
在我看来,这篇论文最大的问题不是谷歌数据。流行病学中的数学模型一直在处理混乱的数据,在我看来,它的问题可以通过相当简单的敏感性分析来解决。
对我来说,最大的问题是研究人员“注定要成功”——这在研究中应该始终避免。他们在他们决定适合数据的模型中执行此操作:标准 SIR 模型。
简而言之,SIR 模型(代表易感性 (S) 感染性 (I) 恢复性 (R))是一系列微分方程,用于跟踪人群在经历传染病时的健康状态。受感染的个体与易感个体相互作用并感染他们,然后及时转移到恢复的类别。
这会产生如下所示的曲线:
美丽,不是吗?是的,这是针对僵尸流行病的。很长的故事。
在这种情况下,红线被建模为“Facebook 用户”。问题是这样的:
在基本的 SIR 模型中,I 类最终将不可避免地渐近接近零。
它必须发生。无论您是在建模僵尸、麻疹、Facebook 还是 Stack Exchange 等,都没有关系。如果您使用 SIR 模型对其进行建模,不可避免的结论是传染性 (I) 类中的人口下降到大约为零。
SIR 模型有一些非常直接的扩展,这使得这不正确——或者你可以让恢复 (R) 类中的人回到易感 (S) 类(本质上,这将是离开 Facebook 的人从“我是永远不会回去”到“我可能有一天会回去”),或者你可以让新的人进入人群(这将是小蒂米和克莱尔获得他们的第一台计算机)。
不幸的是,作者不适合这些模型。顺便说一下,这是数学建模中普遍存在的问题。统计模型试图描述变量的模式及其在数据中的相互作用。数学模型是关于现实的断言。你可以得到一个适合很多东西的 SIR 模型,但是你选择的 SIR 模型也是对系统的一种断言。也就是说,一旦达到顶峰,它就会趋于零。
顺便说一句,互联网公司确实使用了看起来很像流行病模型的用户保留模型,但它们也比论文中提出的模型复杂得多。