相关性或决定系数是否与沿着回归线的值的百分比有关?

机器算法验证 回归 相关性 r平方
2022-03-08 22:32:38

相关性是两个变量之间线性关联的度量。确定系数是衡量一个变量中有多少可变性可以“解释”另一个变量的变化。rr2

例如,如果是两个变量之间的相关性,则因此,一个中 64% 的可变性可以用另一个中的差异来解释。对?r=0.8r2=0.64

我的问题是,对于所述示例,以下任一陈述是否正确?

  1. 64% 的值沿着回归线
  2. 80% 的值沿着回归线
3个回答

你对你陈述的第一部分是正确的。解释决定系数的常用方法是我们能够用解释变量解释的因变量 (确定系数的准确解释和推导可以在这里找到R2yVar(y)R2

http://economictheoryblog.com/2014/11/05/the-coefficient-of-determination-latex-r2/

然而,对决定系数的一种鲜为人知的解释是将其解释为观测值和拟合值之间的平方 Pearson 相关系数。可以在此处找到确定系数等于观测值和拟合值R2yiy^iyiy^i

http://economictheoryblog.com/2014/11/05/proof/

在我看来,这些是解释决定系数的唯一有意义的方法。因此,您所做的两个陈述不能来自R2R2

第一部分基本上是正确的——但模型解释了 64% 的变化。在简单的线性回归中:Y ~ X,如果为 .64,则意味着 Y 的 64% 的变化是由 Y 和 X 之间的线性关系决定的。在非常低的下可能有很强的关系,如果关系是强非线性的。R2R2

关于你的两个编号的问题,都不是正确的。实际上,有可能没有一个点恰好位于回归线上。这不是正在衡量的。相反,这是一个平均点与线有多接近的问题。如果所有点或几乎所有点都接近(即使没有一个点正好在线),则将很高。如果大多数点离线很远,会很低。如果大多数点接近但少数点很远,则回归不正确(异常值问题)。其他事情也可能出错。R2R2

此外,我让“远”的概念相当模糊。这将取决于 X 的分布程度。使这些概念精确是您在回归课程中学习的一部分。我不会在这里讨论它。

1 和 2 都不对。

假设您正在尝试使用线性回归从一组值你的模型是yyxx

yi=b+mxi+ϵi

其中是一些噪音。意味着的 64% 的方差可以用模型下的可变性来解释。剩余方差(无法解释的方差)为 0.36。也就是说,如果:ϵiN(0,σ2)R2=.64yx

y^i=b+mxi

然后

10.64=0.36=var(yyy^y^)var(yy)