首先,这只是一句俏皮话,是不正确的。谷歌有很多非常有才华的统计学家、信息检索专家、语言学家、经济学家、一些心理学家等等。这些人花了很多时间教育很多非统计学家关于相关性和因果关系之间的区别。鉴于它是一个大型组织,可能存在无知的口袋,甚至是大口袋,但这种说法绝对是错误的。此外,许多教育面向客户,尤其是广告商。
更深层次的答案:差异非常重要。只看搜索结果排名,让我超越“相关性”,包括相似性、评分函数等的度量。一些页面被测量为某些查询的良好结果。这些具有各种对其排名很重要的预测特征。与这些对查询有很好结果的好页面形成对比的是一组网页,这些页面对于相同的查询结果很差。然而,这些页面的创建者花费了大量的精力来使它们从数字的角度看起来像是好的页面,例如文本匹配、互联网链接等。然而,仅仅因为这些页面在数字上与好页面“相似”并不意味着这些页面实际上就是好页面。因此,Google 已经投入并将继续投入大量精力来确定哪些合理的特征可以区分(分离)好页面和坏页面。
这不是完全相关和因果关系,但比这更深。某些查询的好页面可能会映射到一个数字空间,在该空间中它们看起来与许多不相关或坏页面相似且不同,但仅仅因为结果位于特征空间的同一区域并不意味着它们来自相同的“高质量”子集的网络。
更简单的答案:一个非常简单的观点是解决结果的排名问题。最好的结果应该是第一,但仅仅因为某件事排名第一并不意味着它是最好的结果。通过一些评分指标,您可能会发现 Google 的排名与质量评估的黄金标准相关,但这并不意味着他们的排名意味着结果在质量和相关性方面确实如此。
更新(第三个答案):随着时间的推移,还有一个方面会影响我们所有人:就是谷歌的最高结果可能被认为是权威的,因为它是谷歌上的最高结果。尽管链接分析(例如“PageRank” - 链接分析的一种方法)是一种反映感知权威性的尝试,但随着时间的推移,某个主题的新页面可能会通过链接到 Google 上的顶级结果来简单地加强该链接结构。相对于第一个结果,更具权威性的较新页面存在领先问题。由于谷歌想要提供目前最相关的页面,由于相关性对感知因果关系的隐含影响,出现了多种因素,包括所谓的“富人越富”现象。
更新(第四个答案):我意识到(对于下面的评论)阅读柏拉图的洞穴寓言可能很有用,以了解如何解释现实的“反射/投影”导致的相关性和因果关系以及如何我们(或我们的机器)感知它。严格限于皮尔逊相关性的相关性,作为对误解关联(不仅仅是相关性)和因果关系问题的解释过于有限。