数据挖掘 - 如果 A 和 B 相关并且 A 和 C 相关。为什么B和C可能不相关？ - 吾爱随笔录

如果 A 和 B 相关并且 A 和 C 相关。为什么B和C可能不相关？

数据挖掘相关性

2021-09-15 02:51:26

假设 A 和 B 相关 A 和 C 相关 B 和 C 不相关当 B 和 C 都与 A 相关时，它们怎么可能不相关？

4个回答

想象一个带有坐标的平面上的随机点 $(x, y)$ ，在哪里 $x, y \in [-1, 1]$ .

A = 两者 $x$ 和 $y$ 为正
B = $x$ 为正
C = $y$ 是积极的

很明显，A 与 B 和 C 相关，它们本身并不相关（假设分布均匀）。

编辑

我有更好的模拟

set.seed(2020)
N <- 250
X1 <- rnorm(N, 0, 1)
X2 <- rnorm(N, 0, 1)
X3 <- X1 + X2
par(mfrow=c(3,1))
plot(X1, X3)
plot(X2, X3)
plot(X1, X2)
cor.test(X1, X3) # 95% confidence interval: [0.6719684, 0.7870920]
cor.test(X2, X3) # 95% confidence interval: [0.5767864, 0.7197146]
cor.test(X1, X2) # 95% confidence interval: [ -0.15596395,  0.09191158]

在这个例子中， $X_1$ 和 $X_2$ 是完全独立的，所以它们是不相关的。然而， $X_3$ 被创建为这两个自变量的总和，这意味着 $X_3$ 与每个相关 $X_1$ 和 $X_2$ .

原来的

这应该很容易模拟和绘制图表。

library(MASS)
set.seed(2020)
N <- 250
mu <- c(0,0,0)
S <- matrix(c(1, 0.7, 0.5, 0.7, 1, 0, 0.5, 0, 1), 3, 3)
X <- mvrnorm(N, mu, S, empirical=T)
par(mfrow=c(3,1))
plot(X[, 1], X[, 2])
plot(X[, 1], X[, 3])
plot(X[, 2], X[, 3])

我认为我必须有非零相关性的相反迹象，但这不是必需的。

在此示例中，将边际变量视为具有两个自变量 $X_2$ 和 $X_3$ 影响 $X_1$ ，意味着每个都与 $X_1$ 但不是彼此。

（并且由于该模拟是多元正态的，因此缺乏相关性确实提供了独立性，尽管这一事实依赖于联合高斯分布。）

您可以通过建设性技术看到它：

假设 A 和 B 相关 A 和 C 相关 B 和 C 不相关当 B 和 C 都与 A 相关时，它们怎么可能不相关？

从随机分布中选择 B。掷骰子，随机值介于 1 和 6 之间。从随机分布中选择 C。另一组不同的掷骰子，随机值介于 1 和 6 之间。

显然，B 和 C 不相关。无论我们对 A 采取什么态度，他们都不可能继续前进。

现在，让我们将 B 和 C 的总和作为 A。显然，A 和 B 将是相关的，因为 A 是 B 加上一些随机变量。显然，A 和 C 将是相关的，因为 A 是 C 加上一些随机变量。

我不确定您是在寻找分析证明、模拟还是一般解释。但是从概念上讲，例如， A 和 B 中的“相关性”并不意味着A 中的所有内容，作为某种单一实体，在统计上与B 中的所有事物也作为某个单一实体相关（相关）。

当我们说 A 与 B 相关时，这意味着 A 中的一些变化（变化）能够解释或预测B 中的一些变化（变化）。

在这方面，假设 A 是汽车总销量，B 是丰田汽车总销量，C 是交通违章总数。

随着汽车总销量的上升，丰田的销量将增加（B 上升）。
随着汽车总销量的上升，更多的汽车意味着更多的交通违规行为。
然而，Toyota 销售的汽车总量太特殊，在预测交通违章总量（C）方面没有太多解释力。随着 B 的变化，您在预测交通违规变化的方向时将无法获得很高的可靠性。

其它你可能感兴趣的问题

上一篇梯度下降是每个优化器的核心吗？下一篇我是一名程序员，我如何进入数据科学领域？