相关性和因果关系

机器算法验证 相关性 因果关系
2022-02-07 13:56:21

从标题为相关的维基百科页面并不意味着因果关系

对于任意两个相关事件 A 和 B,不同的可能关系包括:

  1. A导致B(直接因果关系);
  2. B导致A(反向因果关系);
  3. A和B是共同原因的结果,但互不因果;
  4. A 和 B 都导致 C,这是(显式或隐式)条件。
  5. A引起B,B引起A(双向或循环因果);
  6. A导致C导致B(间接因果关系);
  7. A和B之间没有联系;相关性是巧合。

第四点是什么意思。A 和 B 都导致 C,这是(显式或隐式)条件。如果 A 和 B 导致 C,为什么 A 和 B 必须相关。

4个回答

“调节”是概率论中的一个词:https ://en.wikipedia.org/wiki/Conditional_probability

以 C 为条件意味着我们只关注 C 为真的情况。“隐式”意味着我们可能没有明确地做出这个限制,有时甚至没有意识到这样做。

这意味着,当 A 和 B 都导致 C 时,在 C 为真的情况下观察 A 和 B 之间的相关性,并不意味着 A 和 B 之间存在真正的关系。它只是以 C 为条件(可能是不情愿地)建立人为的相关性。

让我们举个例子。

在一个国家,恰好存在两种疾病,完全独立。调用 A :“人有第一种疾病”,B :“人有第二种疾病”。认为P(A)=0.1,P(B)=0.1.

现在,任何患有其中一种疾病的人都会去看医生,然后才去看医生。呼叫 C :“人去看医生”。我们有C=A or B.

现在让我们计算一些概率:

  • P(C)=0.19
  • P(A|C)=P(B|C)=0.10.190.53
  • P(A and B|C)=0.010.190.053
  • P(A|C)P(B|C)0.28

显然,当以 C 为条件时,AB离独立还很远。实际上,以 C 为条件,notA似乎“导致”B.

如果您使用他们的医生记录的人员列表作为分析的数据源,那么疾病之间似乎存在很强的相关性AB. 您可能没有意识到您的数据源实际上是一个条件。这也称为“选择偏差”。

第四点是伯克森悖论的一个例子,也称为对撞机的条件反射,也称为解释离开现象

举个例子,考虑一个年轻女性经常被年轻男性问到,她必须决定是接受还是拒绝每个约会建议。这些年轻人的魅力和魅力各不相同,让我们假设这两个特征在求婚男性群体中是独立的。自然地,年轻女人更倾向于接受约会建议,男人越有吸引力或迷人。因此,这种情况的因果模型可能如下所示:

AttractiveAcceptCharming
那是,AttractiveCharming两者都导致Accept,如果女性拒绝或接受约会建议,则取值为 0 或 1。

我们在上面假设AttractiveCharming在求婚男性群体中是独立的。但是,如果我们只考虑那些女人接受了提议的男人,他们仍然是独立的吗?换句话说,我们的条件是Accept=1. 现在假设我告诉你一个女人同意约会的男人,我告诉你他(在女人看来)根本没有吸引力。好吧,我们知道那个女人无论如何都同意和他约会,所以我们有理由推断他一定很迷人。相反,如果我们了解到一个男人的约会建议被接受并且不迷人,我们会合理地推断他一定很有吸引力。

你看到这里发生了什么吗?通过调节Accept=1, 我们在AttractiveCharming,即使这两个特征(根据假设)略微独立。从女人的角度来看,她约会的有魅力的男人往往没有魅力,而她约会的有魅力的男人往往没有魅力。但这是因为,只考虑她约会过的男人,她含蓄地以Accept. 如果她改为考虑所有提出约会的男性,无论她是否接受该提议,她都会发现这两个特征之间没有统计关联。

辛普森悖论伯克森悖论都可以给出“A 和 B 都导致 C,它(显式或隐式)以”为条件的例子

例如假设我有1000我收藏的邮票100很少见(10%) 和200很漂亮(20%)。如果稀有和漂亮之间没有内在的关系,它可能会变成20我的邮票既漂亮又稀有。

如果我现在显示我的280有趣的邮票,即稀有或漂亮或两者兼而有之的邮票,稀有和漂亮之间会有明显的负相关(20%展示的稀有邮票很漂亮100%显示的普通邮票很漂亮)完全是因为有趣。

该段落以“对于任何两个相关事件,A 和 B,......”开头,所以我的猜测是,相关性是在一开始就假设的。换句话说,它们不需要相关来同时导致C,但如果它们相关并且它们都导致C,则并不意味着它们之间存在因果关系。