我本来希望相关系数与回归斜率(beta)相同,但是刚刚比较了两者,它们是不同的。它们有何不同——它们提供了哪些不同的信息?
相关系数与回归斜率有何不同?
假设您正在谈论一个简单的回归模型
从某种意义上说,这两者给了你相同的信息——它们都告诉你两者之间的线性关系的强度和. 但是,它们确实为您提供了不同的信息(当然,当它们完全相同时除外):
相关性为您提供了一个可以独立于两个变量的尺度来解释的有界测量。估计的相关性越接近,两者越接近完美的线性关系。孤立地,回归斜率不会告诉您那条信息。
回归斜率给出了一个有用的数量,解释为预期值的估计变化对于给定的值. 具体来说,告诉你期望值的变化对应于 1 个单位的增加. 该信息不能仅从相关系数推导出来。
相关系数衡量两个变量之间线性关系的“紧密度”,范围在 -1 和 1 之间(含)。接近零的相关性表示变量之间没有线性关联,而接近-1或+1的相关性表示强线性关系。 直观地说,您越容易通过散点图绘制一条最佳拟合线,它们的相关性就越高。
回归斜率衡量两个变量之间线性关系的“陡峭程度”,可以取任意值到. 接近零的斜率意味着响应 (Y) 变量随着预测变量 (X) 变量的变化而缓慢变化。远离零的斜率(在负方向或正方向上)意味着响应随着预测变量的变化而变化得更快。 直观地说,如果你要通过散点图绘制一条最佳拟合线,它越陡,你的斜率离零越远。
因此相关系数和回归斜率必须具有相同的符号(+ 或 -),但不会具有相同的值。
为简单起见,这个答案假设简单的线性回归。
Pearson 的相关系数是无量纲的,并且在 -1 和 1 之间缩放,与输入变量的维度和比例无关。
如果(例如)您输入以克或千克为单位的质量,它对的值没有影响,而这将对梯度/斜率(具有尺寸并相应缩放)产生巨大差异......同样,它如果以任何方式调整比例,包括使用磅或吨代替,则对
一个简单的演示(为使用 Python 道歉!):
import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]
表明即使斜率增加了 10 倍
我必须承认,在 -1 和 1 之间缩放是一个巧妙的技巧(其中一种情况是分子的绝对值永远不会大于分母)。
正如@Macro 上面详述的那样,斜率,所以你在直觉上是正确的,皮尔逊的与斜率有关,但只有在根据调整时到标准偏差(有效地恢复了尺寸和比例!)。
起初我觉得奇怪的是,这个公式似乎暗示了一条松散拟合的线(低)会导致较低的梯度。然后我绘制了一个示例,并意识到给定梯度,改变“松散度”会导致减小,但这被的成比例增加所抵消。
在下图中,绘制了四个数据集:
可以看出,方差影响而不一定影响,而度量单位可以影响规模,因此而不会影响