机器算法验证 - 脸书要完蛋了吗？ - 吾爱随笔录

脸书要完蛋了吗？

机器算法验证假设检验相关性流行病学社交网络

2022-01-30 13:07:07

最近，这篇论文受到了很多关注（例如来自WSJ）。基本上，作者得出的结论是，到 2017 年，Facebook 将失去 80% 的成员。

他们的主张基于SIR 模型的外推，这是一种在流行病学中经常使用的分区模型。他们的数据来自谷歌搜索“Facebook”，作者使用 Myspace 的消亡来验证他们的结论。

问题：

作者是否犯了“相关并不意味着因果关系”的错误？这种模型和逻辑可能适用于 Myspace，但它适用于任何社交网络吗？

根据“相关等于因果”的科学原理，我们的研究明确表明，普林斯顿大学可能面临完全消失的危险。

我们真的不认为普林斯顿或世界的空气供应很快就会消失。我们喜欢普林斯顿大学（和空气）”，最后提醒一句“并非所有的研究都是生来平等的——一些分析方法会得出非常疯狂的结论。

4个回答

到目前为止，答案都集中在数据本身上，这对于所在的网站以及它的缺陷是有意义的。

但我是一名计算/数学流行病学家，所以我也会稍微谈谈模型本身，因为它也与讨论相关。

在我看来，这篇论文最大的问题不是谷歌数据。流行病学中的数学模型一直在处理混乱的数据，在我看来，它的问题可以通过相当简单的敏感性分析来解决。

对我来说，最大的问题是研究人员“注定要成功”——这在研究中应该始终避免。他们在他们决定适合数据的模型中执行此操作：标准 SIR 模型。

简而言之，SIR 模型（代表易感性 (S) 感染性 (I) 恢复性 (R)）是一系列微分方程，用于跟踪人群在经历传染病时的健康状态。受感染的个体与易感个体相互作用并感染他们，然后及时转移到恢复的类别。

这会产生如下所示的曲线：

在此处输入图像描述

美丽，不是吗？是的，这是针对僵尸流行病的。很长的故事。

在这种情况下，红线被建模为“Facebook 用户”。问题是这样的：

在基本的 SIR 模型中，I 类最终将不可避免地渐近接近零。

它必须发生。无论您是在建模僵尸、麻疹、Facebook 还是 Stack Exchange 等，都没有关系。如果您使用 SIR 模型对其进行建模，不可避免的结论是传染性 (I) 类中的人口下降到大约为零。

SIR 模型有一些非常直接的扩展，这使得这不正确——或者你可以让恢复 (R) 类中的人回到易感 (S) 类（本质上，这将是离开 Facebook 的人从“我是永远不会回去”到“我可能有一天会回去”），或者你可以让新的人进入人群（这将是小蒂米和克莱尔获得他们的第一台计算机）。

不幸的是，作者不适合这些模型。顺便说一下，这是数学建模中普遍存在的问题。统计模型试图描述变量的模式及其在数据中的相互作用。数学模型是关于现实的断言。你可以得到一个适合很多东西的 SIR 模型，但是你选择的 SIR 模型也是对系统的一种断言。也就是说，一旦达到顶峰，它就会趋于零。

顺便说一句，互联网公司确实使用了看起来很像流行病模型的用户保留模型，但它们也比论文中提出的模型复杂得多。

我对这篇论文的主要关注是它主要关注谷歌搜索结果。一个公认的事实是智能手机的使用正在上升（Pew Internet，Brandwatch），而传统电脑的销量正在下降（可能只是因为旧电脑仍在运行）（Slate，ExtremeTech)，因为越来越多的人使用智能手机访问互联网。考虑到（至少）有适用于 iOS、Android、Blackberry 和 Windows Phone 的原生 Facebook 应用程序，Google 对“facebook”的查询数量大幅下降也就不足为奇了。如果用户不再需要打开浏览器并在 URL 栏中错误输入“facebook.com”，那么这肯定会对搜索次数产生负面影响。事实上，使用该应用程序的 FB 用户数量已显着增加（TechCrunch、福布斯）。

我认为这项研究只是一些“呵呵，有趣的相关性”，被危言耸听的媒体夸大了；“你知道世界在变吗？真是出乎意料！”

好吧，这篇论文确立了这样一个事实，即 Facebook 上的 Google 搜索次数很好地符合某个曲线。所以它充其量只能预测 Facebook 上的搜索量将下降 80%。这可能是可行的，因为 Facebook 可能变得如此无处不在，以至于没有人需要搜索它。

此类模型的问题在于它们假设没有其他因素可以影响观察到的变量的动态。在处理与人相关的数据时，这种假设很难证明是正确的。例如，该模型假设 Facebook 无法采取任何措施来应对用户流失，这是一个非常值得怀疑的假设。

在我看来，谷歌趋势无法为这个研究案例生成一个好的数据集。谷歌趋势显示了一个词被谷歌搜索的频率，所以至少有两个理由对这个预置提出质疑：

我们不知道用户是否在 Google Facebook 上搜索以登录，或者他是否搜索有关 Facebook 的信息

Facebook 不仅是一个网站，也是一种现象，有许多关于它的文章、书籍和电影，Facebook Inc. 于 2012 年 5 月 18 日开始向公众出售股票并在纳斯达克交易。谷歌趋势向您展示：对网站的搜索和对“现象”的搜索。新事物对大众的影响总是很大，电视对大众的影响很大，现在没有人写文章，但仍然是最常用的电器之一。

大多数用户不会在 Google 上搜索“facebook”来登录

使用移动应用程序和书签，只有第一次在 Google 上对互联网搜索“facebook”有相当了解的用户，他通常会将页面保存为书签或下载应用程序。下图是Wikipedia的 Google 趋势，看来我们以后不会再用 Wikipedia 了。显然这不是真的，我们根本不访问维基百科，键入“wikipedia”我们只是搜索然后使用维基百科页面，或者我们使用书签来访问它。

在此处输入图像描述

其它你可能感兴趣的问题

上一篇百分位数 vs 分位数 vs 四分位数下一篇概率和统计有什么区别？