相关系数与回归斜率有何不同?

机器算法验证 回归 相关性
2022-01-17 22:11:12

我本来希望相关系数与回归斜率(beta)相同,但是刚刚比较了两者,它们是不同的。它们有何不同——它们提供了哪些不同的信息?

4个回答

假设您正在谈论一个简单的回归模型

Yi=α+βXi+εi
用最小二乘法估计,我们从维基百科知道
β^=cor(Yi,Xi)SD(Yi)SD(Xi)
因此,两者仅在SD(Yi)=SD(Xi). 也就是说,在某种意义上,它们仅在两个变量处于相同尺度时才会重合。正如@gung 所指出的,实现这一目标的最常见方法是通过标准化。

从某种意义上说,这两者给了你相同的信息——它们都告诉你两者之间的线性关系的强度XiYi. 但是,它们确实为您提供了不同的信息(当然,当它们完全相同时除外):

  • 相关性为您提供了一个可以独立于两个变量的尺度来解释的有界测量。估计的相关性越接近±1两者越接近完美的线性关系孤立地,回归斜率不会告诉您那条信息。

  • 回归斜率给出了一个有用的数量,解释为预期值的估计变化Yi对于给定的值Xi. 具体来说,β^告诉你期望值的变化Yi对应于 1 个单位的增加Xi. 该信息不能仅从相关系数推导出来。

使用简单的线性回归(即只有 1 个协变量),斜率β1和皮尔逊的一样r如果两个变量都先标准化(有关更多信息,您可能会发现我的回答在这里很有帮助。)当您进行多元回归时,这可能会更复杂,因为, ETC。

相关系数衡量两个变量之间线性关系的“紧密度”,范围在 -1 和 1 之间(含接近零的相关性表示变量之间没有线性关联,而接近-1或+1的相关性表示强线性关系。 直观地说,您越容易通过散点图绘制一条最佳拟合线,它们的相关性就越高。

回归斜率衡量两个变量之间线性关系的“陡峭程度”,可以取任意+. 接近零的斜率意味着响应 (Y) 变量随着预测变量 (X) 变量的变化而缓慢变化。远离零的斜率(在负方向或正方向上)意味着响应随着预测变量的变化而变化得更快。 直观地说,如果你要通过散点图绘制一条最佳拟合线,它越陡,你的斜率离零越远。

因此相关系数和回归斜率必须具有相同的符号(+ 或 -),但不会具有相同的值。

为简单起见,这个答案假设简单的线性回归。

Pearson 的相关系数是无量纲的,并且在 -1 和 1 之间缩放,与输入变量的维度和比例无关。

如果(例如)您输入以克或千克为单位的质量,它对的值没有影响,而这将对梯度/斜率(具有尺寸并相应缩放)产生巨大差异......同样,它如果以任何方式调整比例,包括使用磅或吨代替,则rr

一个简单的演示(为使用 Python 道歉!):

import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]

表明即使斜率增加了 10 倍r=0.969363

我必须承认,在 -1 和 1 之间缩放是一个巧妙的技巧(其中一种情况是分子的绝对值永远不会大于分母)。r

正如@Macro 上面详述的那样,斜率,所以你在直觉上是正确的,皮尔逊的与斜率有关,但只有在根据调整时到标准偏差(有效地恢复了尺寸和比例!)。b=r(σyσx)r

起初我觉得奇怪的是,这个公式似乎暗示了一条松散拟合的线(低)会导致较低的梯度。然后我绘制了一个示例,并意识到给定梯度,改变“松散度”会导致减小,但这被的成比例增加所抵消。rrσy

在下图中,绘制了四个数据集:x,y

  1. 的结果(所以梯度)...注意y=3xb=3r=1σx=2.89σy=8.66σyσx=3
  2. 相同但随随机数变化, , ,,从中我们可以计算r=0.2447σx=2.89σy=34.69b=2.94
  3. y=15x (所以 , , )b=15r=1σx=0.58σy=8.66
  4. 与 (2) 相同,但范围减小,因此 (仍然 xb=14.70r=0.2447σx=0.58σy=34.69相关性和梯度

可以看出,方差影响而不一定影响,而度量单位可以影响规模,因此而不会影响rbbr