机器算法验证 - 对“虚假相关”的误解？ - 吾爱随笔录

对“虚假相关”的误解？

机器算法验证相关性虚假相关

2022-03-20 13:26:29

我听说人们在很多不同的情况和不同的方式中使用了虚假相关这个术语，这让我感到困惑。此外，虚假关系的维基百科页面指出：

“在统计学中，虚假关系或虚假相关是一种数学关系，其中两个或多个事件或变量彼此之间没有因果关系（即它们是独立的），但由于任一巧合，可能会错误地推断它们是或存在某个第三个看不见的因素”

几点观察：

从数学上讲，两个变量是独立的，对吗？ $A, B$ $\iff P(A | B) = P(A)$

显然，如果两个变量是相关的，即使依赖是由第三个因素驱动的，这两个变量仍然不是独立的，就像 Wikipedia 文章声称的那样。那是怎么回事？
如果“虚假”相关性在统计上是显着的（或者不是巧合的结果），那有什么问题呢？我见过人们像狂暴的动物一样跳出来，嘴里冒出泡沫，尖叫着：“假的！假的！”。

我不明白他们为什么这样做——没有人声称变量之间存在因果关系。相关性可以没有因果关系存在，那么为什么将其标记为“虚假”，这相当于称其为“假”？

4个回答

我一直讨厌“虚假相关”这个词，因为虚假的不是相关性，而是潜在（错误）因果关系的推断。当有变量之间相关性的证据，但相关性并不反映一个变量与另一个变量之间的因果关系。如果由我决定，这将被称为“虚假原因推断”，我是这么想的。所以你是对的：人们不应该仅仅因为统计测试可以检测相关性这一事实而大发雷霆，尤其是在没有断言根本原因的情况下。（不幸的是，正如人们经常混淆相关性和原因一样，有些人也将相关性的断言混淆为对原因的隐含断言，然后将其视为虚假！）

为了理解这个主题的解释，避免解释错误，你还必须小心你的解释，并记住统计独立性和因果独立性之间的区别。在您问题中的维基百科引用中，它们（隐含）指的是因果独立性，而不是统计独立性（后者是的那个）。可以通过更明确地说明差异来加强维基百科的解释，但值得以允许“独立”的双重含义的方式对其进行解释。 $\mathbb{P}(A|B) = \mathbb{P}(A)$

首先，相关性适用于变量，但不适用于事件，等等，你引用的段落是不精确的。

其次，“虚假相关”只有在变量实际上相关时才有意义，即在统计上相关，因此在统计上不独立。所以这段话在这点上也是有缺陷的。当尽管存在这种相关性，但根据其他证据或推理，两个变量之间明显没有因果关系时，将相关性识别为虚假的相关性变得有用。正如您所说，不仅相关性可以没有因果关系存在，而且在某些情况下，相关性可能会误导人们假设因果关系，并且指出虚假是消除这种误解或阐明这种不正确假设的一种方式。

让我试着用图形模型来解释虚假相关的概念。通常，存在一些隐藏的相关变量导致虚假相关。

假设隐藏变量是A，两个虚假相关的变量是B和C。在这种情况下，存在类似于B<-A->C的图结构。B 和 C 是条件独立的（暗示不相关），这意味着如果没有给出 A，B 和 C 是相关的，如果给出 A，它们是不相关的。

关于“虚假相关”的含义存在巨大的误解。甚至在修炼者之中。

虚假的相关性不仅仅是缺乏因果关系。这是关于缺乏相关性本身！

当两个完全不相关的变量仅靠运气在样本中呈现相关性时，就会出现虚假相关性。因此，这是一个与 I 类错误概念密切相关的概念（当原假设假设 X 和 Y 不相关时）。

这种区别非常重要，因为在某些情况下，需要了解的是变量 X 和 Y 是否相关，无论因果关系如何。例如，出于预测目的，如果分析师观察 X 并且 X 与 Y 相关，则可能 X 可以用来对 Y 做出良好的预测。

探索这个概念的一篇好论文是“带有平稳序列的虚假回归”Granger、Hyung 和 Jeon。链接：https ://escholarship.org/uc/item/7r3353t8 “当根据 OLS 回归中的标准推断发现一对独立序列但具有很强的时间特性时，会发生虚假回归。”

总结起来，我们可以有以下几种情况： (i) X 导致 Y 或 Y 导致 X；(ii) X 和 Y 相关，但 X 既不导致 Y，Y 也不导致 X；(iii) X 和 Y 不相关，但它们在样本中表现出运气的相关性（虚假关系）。

其它你可能感兴趣的问题

上一篇为什么我们不直接学习超参数？下一篇使用 scikit learn 识别特征选择后的过滤特征