线性回归的决定系数(R 平方)可以为零吗?

机器算法验证 回归 随机生成 r平方
2022-04-12 19:56:15

编辑注意:我最关心的是不受约束的 y 截距的线性回归,但是如果相关的话,阅读有关受约束的 y 截距也很有帮助。


我注意到对于线性回归,决定系数(R2) 可以高达 1(如果线性回归完全符合给定数据)。但是,它是否可以为零(是否有两个变量的线性R2是零)?

我为因变量数据获取了一些随机数据(可能不是伪随机,而是实际随机),并使用线性回归将它们与自变量进行了对比;你永远不可能真正得到零R2(所以我想我正在回答我自己的问题)。 具有非零 R 平方的随机数据 这是为什么?这是否意味着任何两个变量确实具有一定的线性相关性(无论这种关系多么微小或多么小)?,即我可以查看任何两个变量并说它们之间存在一些线性相关性吗?

所以,问题不在于两个变量是否线性相关,而在于这种线性关系解释了两个变量之间的相关性的程度......对吗?这不适用于所有其他回归模型(非线性)吗?

2个回答

是的,当变量之间没有线性关系时。例如,当 X 或 Y 是恒定的,或者每个高低数据点由高高或低低数据点平衡时。例如,X=(1,1,2,2),Y=(1,2,1,2), 或者X=(2,1,0,1,2),Y=X2

以下是一些示例:所有这些都具有 0 的相关性,因此确定系数为零:

没有相关图

值得注意的是,只要有任何随机性,那么几乎肯定会有一些相关性。在样本量较小的情况下,这种相关性可能非常高——相关性高达±0.3,样本量为 20。

基本上,零假设总是错误的。这就是为什么人们不应该只报告 p 值(举一个愚蠢的例子,在英国,房屋数量和收入之间存在高度显着的相关性:样本量为 2000 万,r=0.004,p<.0001)。