机器算法验证 - 相关和回归之间的异同 - 吾爱随笔录

机器算法验证回归相关性

2022-02-27 12:54:33

如果我想研究两个连续变量是如何关联的，计算相关系数（Pearson's）与计算（简单线性）回归系数有什么区别？ $r$

我看到有人，如果回归系数与零显着不同，谈论这两个变量就好像它们是相关的，这令人困惑，因为它表明这两个系数（相关性，回归）是同一件事。

话虽如此，难道不是（回归线）斜率的度量吗？我很困惑！！ $r$

4个回答

OLS 回归告诉您的不仅仅是（线性）相关系数。此外，后者是您从前者获得的东西之一。这是您使用 OLS 获得的结果：

描述Y如何与X相关的线性趋势的特征。这一趋势包括：

1a。该线的斜率（又名 beta、效果、系数等，取决于学科），它告诉您在X增加 1 个单位的情况下，您估计Y将发生多少变化。

1b。Y 截距，可能感兴趣也可能不感兴趣，这取决于一个人研究问题的实质性质。
关联强度的表征......也就是说，线是否真的很好地描述了数据，或者它只是描述了数据。在前一种情况下，大多数观察到的数据点位于或接近回归线；在后一种情况下，数据点可能离线很远。通常，这被报告为，这与 Pearson 的 $Y = \beta_{0} + \beta_{X}X$ $R^{2}$ $r^{2}$
在给定X值的情况下，可以获得对Y值的预测，并估计该预测的不确定性。

Pearson 的相关系数给出一 (2)，但仅给出 (1a) 中斜率的符号，不给出截距 (1b) 或预测 (3)。

为了只关注问题的一个方面（@Alexis 答案很好地分析了更大的图片），和之间的样本相关系数是 $Y$ $X$

r = \frac{\hat{C} o v (Y, X)}{{\hat{σ}}_{y} {\hat{σ}}_{x}}

$r = \frac { \operatorname{\hat Cov}(Y,X)}{\hat \sigma_y\hat \sigma_x}$

而在简单回归中，斜率系数的 OLS 估计量为 $Y = \beta_0 + \beta_1X+ u$

{\hat{β}}_{1} = \frac{\hat{C} o v (Y, X)}{{\hat{σ}}_{x}^{2}}

$\hat \beta_1 = \frac { \operatorname{\hat Cov}(Y,X)}{\hat \sigma_x^2}$

结合，我们有关系

{\hat{β}}_{1} = \frac{{\hat{σ}}_{y}}{{\hat{σ}}_{x}} r

$\hat \beta_1 = \frac {\hat \sigma_y}{\hat \sigma_x}r$

思考最后一个，我相信它会提供有用的直觉。

如果我想研究两个连续变量是如何关联的，那么计算相关系数（Pearson's r）与计算（简单线性）回归系数有什么区别？

回归线是。相关性是一个完全不同的对象。 $E(Y|X=x)$

回归斜率以 Y/X 为单位，而相关性是无单位的。

我看到有人，如果回归系数与零显着不同，谈论这两个变量就好像它们是相关的，这令人困惑，因为它表明这两个系数（相关性，回归）是同一件事。

不，只是它们是相关的，它们是相关的。（它们的 p 值实际上是相同的）

话虽如此，难道不是（回归线）斜率的测量吗？

不是斜率，不是，如上所述。如果我从以米为单位更改为以毫米为单位，我的斜率会改变一百万倍，但我的相关性根本不会改变。但它们是相关的。

在直观方面，我一直在考虑以下问题。

Pearson 相关是二维线性近似，而线性回归是 n 维线性近似。因此，后者提供了相关性的估计，该估计解释了许多其他特征，这些特征可能会影响/缩小使用 Pearson 相关性获得的估计值。

有关Pearson 相关性，请参见此示例 1 。考虑一张没有高度信息的地图，并假设您可以在其上线性移动（河流或悬崖的存在无关紧要）。您知道从 A 点到达 B 点的时间，然后计算速度。

有关线性回归，请参见此示例 2 。相反，如果您在带有高度信息的地图上移动，并且您必须考虑您所面对的地面上的所有其他信息（即河流或悬崖），但您离开 A 点并到达 B 点的时间仍然是在示例 1 中，您将获得的速度值会有所不同（很可能会更高）。

尽管线性回归只提供了平均速度的近似值，但它仍然比使用 Pearson 相关性得到的初始近似值要好。

你们中的一些人在这个例子中发现了什么问题吗？（您的答案将非常有用，因为我通常在课堂上使用此示例）

无论如何，我希望这个例子有助于理解这两种技术之间的区别。

其它你可能感兴趣的问题