如果 X 和 Y 完全相关,那么 X+Y 和 XY 的相关性是多少?

机器算法验证 可能性 自习 相关性 数理统计
2022-03-24 06:22:12

我开始认为如果 X 和 Y 完全相关,那么它与查看 Y 和 -Y 的相关性相同(因为 X 没有提供新信息),因此相关性为 -1。

这个对吗?

4个回答

提示:一般来说所以,工作找出通常是什么,以及在的特殊情况下。你可能会对结果感到惊讶。

ρA,B=cov(A,B)var(A)var(B),var(X±Y)=var(X)+var(Y)±2cov(X,Y),andcov(X+Y,XY)=var(X)var(Y)
ρX+Y,XYY=aX+b

我会把它当作,我鼓励您阅读它的 wiki并添加标签。

你的论点已经很好了。这里有一些建议。随意写评论,以便我们讨论并努力寻找一个好的答案。

  • 我假设您正在查看 Pearson 的相关性,对吗?(你的论点是否适用于其他相关性度量?)
  • 完美的相关性在图形上意味着什么?
  • 什么会X+YXY看起来像图形如果XY是完全皮尔逊相关的吗?

我看到这已经有一个公认的答案,但我一直更喜欢模拟而不是方程,这似乎是一个有趣的问题。我生成了一个变量x从分布N(0,1)谁的样本量n取自U(100,10000). y,我只是添加了一个常数——从U(1,100)-至x. 然后我计算了之间的相关性X+YXY. 我这样做了 10,000 次:

set.seed(1839)
cors <- sapply(1:10000, function(placeholder) {
  n <- runif(1, 100, 10000)
  b0 <- runif(1, 1, 100)
  x <- rnorm(n)
  y <- b0 + x
  cor(x + y, x - y)
})

你会收到很多警告。我跑去warnings()[1:5]获得前五个:

Warning messages:
1: In cor(x + y, x - y) : the standard deviation is zero
2: In cor(x + y, x - y) : the standard deviation is zero
3: In cor(x + y, x - y) : the standard deviation is zero
4: In cor(x + y, x - y) : the standard deviation is zero
5: In cor(x + y, x - y) : the standard deviation is zero

我们仍然可以查看定义的相关性直方图,调用hist(cors[!is.na(cors)])

在此处输入图像描述

我们还可以查看这些模拟中有多少Var(XY)=0

set.seed(1839)
sd_is_zero <- sapply(1:10000, function(placeholder) {
  n <- runif(1, 100, 10000)
  b0 <- runif(1, 1, 100)
  x <- rnorm(n)
  y <- b0 + x
  ifelse(var(x - y) == 0, TRUE, FALSE)
})

然后我们可以调用prop.table(table(var_is_zero))看看生成了多少模拟Var(XY)=0

var_is_zero
 FALSE   TRUE 
0.1698 0.8302 

但为什么有些是定义的,有些是未定义的?它与样本量有关还是与常数有关?

set.seed(1839)
dat <- as.data.frame(matrix(nrow = 10000, ncol = 3))
colnames(dat) <- c("var_is_zero", "n", "b0")
for (i in 1:10000) {
  n <- runif(1, 100, 10000)
  b0 <- runif(1, 1, 100)
  x <- rnorm(n)
  y <- b0 + x
  dat$var_is_zero[i] = ifelse(var(x - y) == 0, TRUE, FALSE)
  dat$n[i] = n
  dat$b0[i] = b0
}

我们现在可以根据样本量、常数和交互作用来预测方差是否为零,查看结果summary(glm(var_is_zero ~ n * b0, data = dat, family = binomial()))

Call:
glm(formula = var_is_zero ~ n * b0, family = binomial(), data = dat)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.5154   0.1628   0.3039   0.5997   1.2894  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -2.613e-01  1.038e-01  -2.518   0.0118 *  
n           -2.114e-05  1.785e-05  -1.184   0.2362    
b0           5.323e-02  2.973e-03  17.907   <2e-16 ***
n:b0        -4.011e-07  4.968e-07  -0.807   0.4195    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 9111.4  on 9999  degrees of freedom
Residual deviance: 7148.0  on 9996  degrees of freedom
AIC: 7156

Number of Fisher Scoring iterations: 6

看起来截距越大,相关性越有可能不确定。

如果X是一个线性函数Y(完美相关的定义),那么两者XYX+Y将是的线性函数Y,因此是彼此的线性函数。

所以,XYX+Y是完全相关的。