相关和回归之间的异同

机器算法验证 回归 相关性
2022-02-27 12:54:33

如果我想研究两个连续变量是如何关联的,计算相关系数(Pearson's)与计算(简单线性)回归系数有什么区别?r

我看到有人,如果回归系数与零显着不同,谈论这两个变量就好像它们是相关的,这令人困惑,因为它表明这两个系数(相关性,回归)是同一件事。

话虽如此,难道不是(回归线)斜率的度量吗?我很困惑!!r

4个回答

OLS 回归告诉您的不仅仅是(线性)相关系数。此外,后者是您从前者获得的东西之一。这是您使用 OLS 获得的结果:

  1. 描述Y如何与X相关的线性趋势的特征这一趋势包括:

    1a。该线的斜率(又名 beta、效果、系数等,取决于学科),它告诉您在X增加 1 个单位的情况下,您估计Y将发生多少变化

    1b。Y 截距可能感兴趣也可能不感兴趣,这取决于一个人研究问题的实质性质。

  2. 关联强度的表征......也就是说,线是否真的很好地描述了数据,或者它只是描述了数据。在前一种情况下,大多数观察到的数据点位于或接近回归线;在后一种情况下,数据点可能离线很远。通常,这被报告为,这与 Pearson 的Y=β0+βXXR2r2

  3. 在给定X值的情况下,可以获得Y值的预测,并估计该预测的不确定性。

Pearson 的相关系数给出一 (2),但仅给出 (1a) 中斜率的符号,不给出截距 (1b) 或预测 (3)。

为了只关注问题的一个方面(@Alexis 答案很好地分析了更大的图片),之间的样本相关系数是YX

r=C^ov(Y,X)σ^yσ^x

而在简单回归中,斜率系数的 OLS 估计量为Y=β0+β1X+u

β^1=C^ov(Y,X)σ^x2

结合,我们有关系

β^1=σ^yσ^xr

思考最后一个,我相信它会提供有用的直觉。

如果我想研究两个连续变量是如何关联的,那么计算相关系数(Pearson's r)与计算(简单线性)回归系数有什么区别?

回归线是相关性是一个完全不同的对象。E(Y|X=x)

回归斜率以 Y/X 为单位,而相关性是无单位的。

我看到有人,如果回归系数与零显着不同,谈论这两个变量就好像它们是相关的,这令人困惑,因为它表明这两个系数(相关性,回归)是同一件事。

不,只是它们是相关的,它们是相关的。(它们的 p 值实际上是相同的)

话虽如此,难道不是(回归线)斜率的测量吗?

不是斜率,不是,如上所述。如果我从以米为单位更改为以毫米为单位,我的斜率会改变一百万倍,但我的相关性根本不会改变。但它们是相关的。

在直观方面,我一直在考虑以下问题。

Pearson 相关是二维线性近似,而线性回归是 n 维线性近似。因此,后者提供了相关性的估计,该估计解释了许多其他特征,这些特征可能会影响/缩小使用 Pearson 相关性获得的估计值。

有关Pearson 相关性,请参见此示例 1 。考虑一张没有高度信息的地图,并假设您可以在其上线性移动(河流或悬崖的存在无关紧要)。您知道从 A 点到达 B 点的时间,然后计算速度。

有关线性回归,请参见此示例 2 。相反,如果您在带有高度信息的地图上移动,并且您必须考虑您所面对的地面上的所有其他信息(即河流或悬崖),但您离开 A 点并到达 B 点的时间仍然是在示例 1 中,您将获得的速度值会有所不同(很可能会更高)。

尽管线性回归只提供了平均速度的近似值,但它仍然比使用 Pearson 相关性得到的初始近似值要好。

你们中的一些人在这个例子中发现了什么问题吗?(您的答案将非常有用,因为我通常在课堂上使用此示例)

无论如何,我希望这个例子有助于理解这两种技术之间的区别。