相关性和协方差之间的区别:协方差是否仅在关系为线性时才有用?

机器算法验证 回归 相关性 协方差 非独立的 线性的
2022-03-24 07:50:05

我试图更好地理解协方差和相关性之间的区别,除了相关系数是一个维度并且值介于11.

一个不清楚的点是:相关系数只能突出两个变量之间的线性关系,但 协方差是否也只适用于线性关系?假设关系不是线性的,协方差不为零吗?它比关系是线性的情况下更大吗?

柯西不等式说

|σxy|<σxσy

这似乎是说当存在完美的线性关系时协方差最大。

因此,如果关系不是线性的,我不知道会发生什么,并且,如果协方差不是该 cas 中的合适参数,我不明白原因,因为只需查看定义:

σxy=(xx¯)(yy¯)N

对于任何类型的关系(如抛物线),看起来这应该是非零的。

那么这可能是使用协方差和相关系数之间的区别吗?(第一个适用于任何类型的关系,第二个仅适用于线性关系)。

2个回答

Pearson 相关不同,协方差本身并不是线性关系大小的量度它是协变的量度(可能只是单调的)。这是因为协方差不仅取决于线性关联的强度,还取决于方差的大小。为了使协方差仅是线性关联的度量,必须以某种方式控制方差,如果没有这种控制协方差在非线性基础关系下可能比在线性关系下更强。

示例:假设有完全线性相关的变量 X 和 Y。在不接触 Y 的情况下,X 的两个极值相距很远。现在关系只是单调的,但由于 X 的范围扩大,协方差增强了。

但协方差的理论上限等于σXσY这只有在精确的线性关系下才能实现。在该示例中,如果我们将扩展的 X 数据反向重新缩放到其原始方差,则新的协方差值将低于初始值,而不是高于初始值。这是因为我们放弃了单调的线性关系。线性系数,皮尔逊r=covXY/(σXσY)就是相对于其上限的协方差。

但是,在控制方差(例如标准化它们)的情况下,当键是线性的时协方差最大化,这一限制性事实并没有使协方差成为线性关联大小的度量。将协方差系数称为“线性协方差系数”是不恰当的,就像我们说的“线性相关系数”一样。

然而,在假设线性模型的分析中,协方差通常用于代替 Pearson 相关性例如,您可以基于协方差矩阵而不是相关矩阵进行因子分析。虽然协方差不仅可以挖掘显性变量之间的线性关系,但潜在因素仍然会影响变量,但根据模型是线性的(Pt 2),因此仅考虑或负责它们之间的线性关系。

协方差越高...

  • 关联更单调(即数据中反演的实例越少
  • 组合可变性更大σX2+σY2
  • 两个变量更相等
  • 变量的值更相等或成比例:在条件下σX=σYcov 将在何时达到最大值 Xi=Yi(考虑已经居中的变量),或者,等价地,在σXσYcov 将在何时达到最大值Xi=kYi. 线性。

正如@RichardHardy 在他的评论中指出的那样,相关性只是按比例缩放的协方差。因此,它们对于完全相同类型的关系很有用,但相关性在不同关系之间具有可比性,并且相关性不会受到单位选择的影响,而协方差会受到影响。

set.seed(123)
htin <- rnorm(100,68,3)
wtpound <- htin*2.5 + rnorm(100,0,5)
htm <- htin*0.0254
wtkg <- wtpound/2.2

cor(htin,wtpound) #0.81
cov(htin,wtpound) #18.09

cor(htm,wtkg) #0.81
cov(htm,wtkg) #0.21

如果你有一个完美的 U 形关系,那么 cov 和 corr 都将为 0:

x <- seq(-4,4,by = 0.1)
y <- x^2
cor(x,y) #1.63*10^-16
cov(x,y) #1.89*10^-15