机器算法验证 - 相关系数与回归斜率有何不同？ - 吾爱随笔录

相关系数与回归斜率有何不同？

机器算法验证回归相关性

2022-01-17 22:11:12

我本来希望相关系数与回归斜率（beta）相同，但是刚刚比较了两者，它们是不同的。它们有何不同——它们提供了哪些不同的信息？

4个回答

假设您正在谈论一个简单的回归模型

Y_{i} = α + β X_{i} + ε_{i}

$Y_i = \alpha + \beta X_i + \varepsilon_i$ 用最小二乘法估计，我们从维基百科知道

\hat{β} = c o r (Y_{i}, X_{i}) \cdot \frac{S D (Y_{i})}{S D (X_{i})}

$\hat {\beta} = {\rm cor}(Y_i, X_i) \cdot \frac{ {\rm SD}(Y_i) }{ {\rm SD}(X_i) }$ 因此，两者仅在

S D (Y_{i}) = S D (X_{i})

${\rm SD}(Y_i) = {\rm SD}(X_i)$ . 也就是说，在某种意义上，它们仅在两个变量处于相同尺度时才会重合。正如@gung 所指出的，实现这一目标的最常见方法是通过标准化。

从某种意义上说，这两者给了你相同的信息——它们都告诉你两者之间的线性关系的强度 $X_i$ 和 $Y_i$ . 但是，它们确实为您提供了不同的信息（当然，当它们完全相同时除外）：

相关性为您提供了一个可以独立于两个变量的尺度来解释的有界测量。估计的相关性越接近 $\pm 1$ ，两者越接近完美的线性关系。孤立地，回归斜率不会告诉您那条信息。
回归斜率给出了一个有用的数量，解释为预期值的估计变化 $Y_i$ 对于给定的值 $X_i$ . 具体来说， $\hat \beta$ 告诉你期望值的变化 $Y_i$ 对应于 1 个单位的增加 $X_i$ . 该信息不能仅从相关系数推导出来。

使用简单的线性回归（即只有 1 个协变量），斜率 $\beta_1$ 和皮尔逊的一样 $r$ 如果两个变量都先标准化。（有关更多信息，您可能会发现我的回答在这里很有帮助。）当您进行多元回归时，这可能会更复杂，因为多重共线性， ETC。

相关系数衡量两个变量之间线性关系的“紧密度”，范围在 -1 和 1 之间（含）。接近零的相关性表示变量之间没有线性关联，而接近-1或+1的相关性表示强线性关系。 直观地说，您越容易通过散点图绘制一条最佳拟合线，它们的相关性就越高。

回归斜率衡量两个变量之间线性关系的“陡峭程度”，可以取任意值 $-\infty$ 到 $+\infty$ . 接近零的斜率意味着响应 (Y) 变量随着预测变量 (X) 变量的变化而缓慢变化。远离零的斜率（在负方向或正方向上）意味着响应随着预测变量的变化而变化得更快。 直观地说，如果你要通过散点图绘制一条最佳拟合线，它越陡，你的斜率离零越远。

因此相关系数和回归斜率必须具有相同的符号（+ 或 -），但不会具有相同的值。

为简单起见，这个答案假设简单的线性回归。

Pearson 的相关系数是无量纲的，并且在 -1 和 1 之间缩放，与输入变量的维度和比例无关。

如果（例如）您输入以克或千克为单位的质量，它对的值没有影响，而这将对梯度/斜率（具有尺寸并相应缩放）产生巨大差异......同样，它如果以任何方式调整比例，包括使用磅或吨代替，则对 $r$ $r$

一个简单的演示（为使用 Python 道歉！）：

import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]

表明即使斜率增加了 10 倍 $r = 0.969363$

我必须承认，在 -1 和 1 之间缩放是一个巧妙的技巧（其中一种情况是分子的绝对值永远不会大于分母）。 $r$

正如@Macro 上面详述的那样，斜率，所以你在直觉上是正确的，皮尔逊的与斜率有关，但只有在根据调整时到标准偏差（有效地恢复了尺寸和比例！）。 $b = r(\frac{\sigma_{y}}{\sigma_{x}})$ $r$

起初我觉得奇怪的是，这个公式似乎暗示了一条松散拟合的线（低）会导致较低的梯度。然后我绘制了一个示例，并意识到给定梯度，改变“松散度”会导致减小，但这被的成比例增加所抵消。 $r$ $r$ $\sigma_{y}$

在下图中，绘制了四个数据集： $x,y$

的结果（所以梯度，，，）...注意 $y=3x$ $b=3$ $r=1$ $\sigma_{x}=2.89$ $\sigma_{y}=8.66$ $\frac{\sigma_{y}}{\sigma_{x}}=3$
相同但随随机数变化， , ,，从中我们可以计算 $r = 0.2447$ $\sigma_{x}=2.89$ $\sigma_{y}=34.69$ $b= 2.94$
$y=15x$ (所以和 , , ) $b=15$ $r=1$ $\sigma_{x}=0.58$ $\sigma_{y}=8.66$
与 (2) 相同，但范围减小，因此（仍然，，） $x$ $b= 14.70$ $r = 0.2447$ $\sigma_{x}=0.58$ $\sigma_{y}=34.69$

可以看出，方差影响而不一定影响，而度量单位可以影响规模，因此而不会影响 $r$ $b$ $b$ $r$

其它你可能感兴趣的问题

上一篇折叠具有多个级别的分类变量的原则方法？下一篇“随机变量”是什么意思？