如果我想研究两个连续变量是如何关联的,计算相关系数(Pearson's)与计算(简单线性)回归系数有什么区别?
我看到有人,如果回归系数与零显着不同,谈论这两个变量就好像它们是相关的,这令人困惑,因为它表明这两个系数(相关性,回归)是同一件事。
话虽如此,难道不是(回归线)斜率的度量吗?我很困惑!!
如果我想研究两个连续变量是如何关联的,计算相关系数(Pearson's)与计算(简单线性)回归系数有什么区别?
我看到有人,如果回归系数与零显着不同,谈论这两个变量就好像它们是相关的,这令人困惑,因为它表明这两个系数(相关性,回归)是同一件事。
话虽如此,难道不是(回归线)斜率的度量吗?我很困惑!!
OLS 回归告诉您的不仅仅是(线性)相关系数。此外,后者是您从前者获得的东西之一。这是您使用 OLS 获得的结果:
描述Y如何与X相关的线性趋势的特征。这一趋势包括:
1a。该线的斜率(又名 beta、效果、系数等,取决于学科),它告诉您在X增加 1 个单位的情况下,您估计Y将发生多少变化。
1b。Y 截距,可能感兴趣也可能不感兴趣,这取决于一个人研究问题的实质性质。
关联强度的表征......也就是说,线是否真的很好地描述了数据,或者它只是描述了数据。在前一种情况下,大多数观察到的数据点位于或接近回归线;在后一种情况下,数据点可能离线很远。通常,这被报告为,这与 Pearson 的
在给定X值的情况下,可以获得对Y值的预测,并估计该预测的不确定性。
Pearson 的相关系数给出一 (2),但仅给出 (1a) 中斜率的符号,不给出截距 (1b) 或预测 (3)。
为了只关注问题的一个方面(@Alexis 答案很好地分析了更大的图片),和之间的样本相关系数是
而在简单回归中,斜率系数的 OLS 估计量为
结合,我们有关系
思考最后一个,我相信它会提供有用的直觉。
如果我想研究两个连续变量是如何关联的,那么计算相关系数(Pearson's r)与计算(简单线性)回归系数有什么区别?
回归线是。相关性是一个完全不同的对象。
回归斜率以 Y/X 为单位,而相关性是无单位的。
我看到有人,如果回归系数与零显着不同,谈论这两个变量就好像它们是相关的,这令人困惑,因为它表明这两个系数(相关性,回归)是同一件事。
不,只是它们是相关的,它们是相关的。(它们的 p 值实际上是相同的)
话虽如此,难道不是(回归线)斜率的测量吗?
不是斜率,不是,如上所述。如果我从以米为单位更改为以毫米为单位,我的斜率会改变一百万倍,但我的相关性根本不会改变。但它们是相关的。
在直观方面,我一直在考虑以下问题。
Pearson 相关是二维线性近似,而线性回归是 n 维线性近似。因此,后者提供了相关性的估计,该估计解释了许多其他特征,这些特征可能会影响/缩小使用 Pearson 相关性获得的估计值。
有关Pearson 相关性,请参见此示例 1 。考虑一张没有高度信息的地图,并假设您可以在其上线性移动(河流或悬崖的存在无关紧要)。您知道从 A 点到达 B 点的时间,然后计算速度。
有关线性回归,请参见此示例 2 。相反,如果您在带有高度信息的地图上移动,并且您必须考虑您所面对的地面上的所有其他信息(即河流或悬崖),但您离开 A 点并到达 B 点的时间仍然是在示例 1 中,您将获得的速度值会有所不同(很可能会更高)。
尽管线性回归只提供了平均速度的近似值,但它仍然比使用 Pearson 相关性得到的初始近似值要好。
你们中的一些人在这个例子中发现了什么问题吗?(您的答案将非常有用,因为我通常在课堂上使用此示例)
无论如何,我希望这个例子有助于理解这两种技术之间的区别。