如果相关性并不意味着因果关系,那么了解两个变量之间的相关性有什么价值?

机器算法验证 相关性 数理统计
2022-03-09 00:46:07

假设作为企业主(或营销人员或任何了解散点图的人)显示了两个变量的散点图:过去 5 年的广告数量与每月产品销售数量(或另一个时间尺度,以便您有更多的样品。我刚做了这个)。

现在他/她看到了散点图,并被告知相关系数 (corr) 为:

  1. 1 或
  2. 0.5 或
  3. 0.11 或
  4. 0 或
  5. -0.75 或
  6. -1

基本上任何有效值corr

问题:这对决策者或散点图的任何消费者意味着什么?仅基于此可以做出哪些决定?

即:看到任何两个变量之间的相关性有什么用,孤立地处理这些信息有什么用?只是看看回归分析中包含哪些内容而不考虑哪些内容,还是有更实际的用途?

只是好奇,我一直在使用这种技术,但有人告诉我,相关性本身并没有多大用处——那么“是”有什么用呢?

4个回答

一些想法:

  • 关于相关性不是因果关系的古老谣言只是故事的一半。相关性可能不是因果关系,但两个变量之间某种形式的关联是展示因果关系的必要步骤,相关性可以帮助证明这一点。
  • 它有助于指出趋势。把它展示给企业主,他们可能会说:“是的,这很有道理,你会看到 Widget X 和 Widget Y 最终都被特定的一群人使用,即使它们并不真正相关。或者他们可能会说“那是……奇怪”,此时您提示了进一步调查。
  • 这样看。相关性是一种工具。锤子本身并没有那么有用。它当然不会自己建造房子。但是你有没有试过不用锤子盖房子?

从赌博的角度来看。假设我们知道,穿工作靴上班的人平均会在工作中受伤 1.5 次,而穿乐福鞋的人平均会受伤 0.05 次。或者,也许穿着工作靴的人受伤的几率是 0.85,而穿着乐福鞋的人受伤的几率是 0.1。

如果我从人群中随机选择一个人,告诉你这个人穿着工作靴,并给你平赌他去年是否有工伤,你会接受这个赌注吗?好吧,如果你能够打赌他们受伤了,你就会接受这个赌注。85% 的时间你会赢,而且你得到的钱都是平的。

关键是,知道这条信息可以让我们了解他们是否可能在工作中受伤。鞋子与它无关,事实上,工作靴可以防止受伤。但是这里的混杂变量是与工作靴一起使用的工作类型。也许还有其他事情,比如这个人可能更鲁莽。

“相关性并不意味着因果关系”这句话被夸大了。(正如科恩(Cohen)所写,“这是一个非常大的暗示”。)我们将这句话打入学生,因为人类思维固有的偏见。当你听到“犯罪率与贫困率相关”之类的话时,你不禁会认为这意味着贫困导致了犯罪。人们很自然地会假设这一点,因为这就是头脑的运作方式。我们一遍又一遍地使用这个短语,希望能抵消这一点。然而,一旦你吸收了这个想法,这个短语就失去了它的大部分价值,是时候进行更复杂的理解了。

当两个变量之间存在相关性时,有两种可能性:这都是巧合,或者有某种因果模式在起作用。将世界上的一种模式称为巧合是一个糟糕的解释框架,可能应该是你最后的手段。这就留下了因果关系。问题是我们不知道这种因果模式的本质。很可能是贫困导致犯罪,但也可能是犯罪导致贫困(例如,人们不想住在犯罪率高的地区,所以他们搬出去,财产价值下降等)。也可能存在导致犯罪和贫困的第三个变量或变量组,但事实上,没有 直接的犯罪与贫困之间的因果关系(称为“共同原因”模型)。这是特别有害的,因为在统计模型中,所有其他变异来源都被折叠到因变量的误差项中。结果,自变量与误差项相关(由误差项引起),导致内生性问题。这些问题都非常棘手,不能掉以轻心。尽管如此,即使在这种情况下,重要的是要认识到存在真正的因果关系。

简而言之,当您看到相关性时,您应该认为某处可能存在某种因果关系,但您不知道该因果模式的性质。

我以为我对这些东西很了解,但直到上个月我才在字典中查找“暗示”,发现它有两个截然不同的含义。1.建议和2.必要。(!)相关性很少需要因果关系,但它肯定可以暗示它。正如@EpiGrad 指出的那样,这是建立因果关系的必要条件,但不是充分条件。

随着时间的推移,人们希望在将相关性视为最终目标和完全无用之间找到一个中间立场。并且在解释相关结果时考虑了特定于主题/领域/内容的知识。当看到您描述的广告销售结果时,很少有人会质疑至少存在一些因果关系。但对其他可能性保持开放总是好的,其他变量至少可以部分解释观察到的关系。阅读有关混杂变量、有效性等方面的内容会带来丰厚的回报。例如,Cook 和 Campbell 的经典著作Quasi-Experimentation在有效性和有效性威胁方面有一个很好的部分。