如果 A 和 B 相关并且 A 和 C 相关。为什么B和C可能不相关?

数据挖掘 相关性
2021-09-15 02:51:26

假设 A 和 B 相关 A 和 C 相关 B 和 C 不相关 当 B 和 C 都与 A 相关时,它们怎么可能不相关?

4个回答

想象一个带有坐标的平面上的随机点 (x,y), 在哪里 x,y[1,1].

A = 两者 xy为正
B =x为正
C =y 是积极的

很明显,A 与 B 和 C 相关,它们本身并不相关(假设分布均匀)。

编辑

我有更好的模拟

set.seed(2020)
N <- 250
X1 <- rnorm(N, 0, 1)
X2 <- rnorm(N, 0, 1)
X3 <- X1 + X2
par(mfrow=c(3,1))
plot(X1, X3)
plot(X2, X3)
plot(X1, X2)
cor.test(X1, X3) # 95% confidence interval: [0.6719684, 0.7870920]
cor.test(X2, X3) # 95% confidence interval: [0.5767864, 0.7197146]
cor.test(X1, X2) # 95% confidence interval: [ -0.15596395,  0.09191158]

在这个例子中, X1X2是完全独立的,所以它们是不相关的。然而,X3 被创建为这两个自变量的总和,这意味着 X3 与每个相关 X1X2.

原来的

这应该很容易模拟和绘制图表。

library(MASS)
set.seed(2020)
N <- 250
mu <- c(0,0,0)
S <- matrix(c(1, 0.7, 0.5, 0.7, 1, 0, 0.5, 0, 1), 3, 3)
X <- mvrnorm(N, mu, S, empirical=T)
par(mfrow=c(3,1))
plot(X[, 1], X[, 2])
plot(X[, 1], X[, 3])
plot(X[, 2], X[, 3])

我认为我必须有非零相关性的相反迹象,但这不是必需的。

在此示例中,将边际变量视为具有两个自变量X2X3影响X1,意味着每个都与X1但不是彼此。

(并且由于该模拟是多元正态的,因此缺乏相关性确实提供了独立性,尽管这一事实依赖于联合高斯分布。)

您可以通过建设性技术看到它:

假设 A 和 B 相关 A 和 C 相关 B 和 C 不相关 当 B 和 C 都与 A 相关时,它们怎么可能不相关?

从随机分布中选择 B。掷骰子,随机值介于 1 和 6 之间。从随机分布中选择 C。另一组不同的掷骰子,随机值介于 1 和 6 之间。

显然,B 和 C 不相关。无论我们对 A 采取什么态度,他们都不可能继续前进。

现在,让我们将 B 和 C 的总和作为 A。显然,A 和 B 将是相关的,因为 A 是 B 加上一些随机变量。显然,A 和 C 将是相关的,因为 A 是 C 加上一些随机变量。

我不确定您是在寻找分析证明、模拟还是一般解释。但是从概念上讲,例如, A 和 B 中的“相关性”并不意味着A 中的所有内容,作为某种单一实体,在统计上与B 中的所有事物也作为某个单一实体相关(相关)。

当我们说 A 与 B 相关时,这意味着 A 中的一些变化(变化)能够解释或预测B 中的一些变化(变化)。

在这方面,假设 A 是汽车总销量,B 是丰田汽车总销量,C 是交通违章总数。

  • 随着汽车总销量的上升,丰田的销量将增加(B 上升)。
  • 随着汽车总销量的上升,更多的汽车意味着更多的交通违规行为。
  • 然而,Toyota 销售的汽车总量太特殊,在预测交通违章总量(C)方面没有太多解释力。随着 B 的变化,您在预测交通违规变化的方向时将无法获得很高的可靠性。