线性回归具有统计显着性但 r 平方非常低意味着什么?

机器算法验证 回归 推理 r平方 线性的
2022-01-29 15:46:55

我理解这意味着该模型在预测单个数据点方面很糟糕,但已经建立了一个坚定的趋势(例如,当 x 上升时,y 上升)。

4个回答

这意味着您可以解释数据中的一小部分方差。例如,您可以确定大学学位会影响薪水,但同时这只是一个小因素。还有很多其他因素会影响你的薪水,大学学位的贡献很小,但可以检测到。

实际上,这可能意味着大学学位平均每年使工资增加500美元,而人们工资的标准差为10K美元。因此,许多受过大学教育的人的薪水低于未受过教育的人,并且您的模型的预测价值很低。

这意味着“不可约误差很高”,即我们能做的最好的事情(使用线性模型)是有限的。例如下面的数据集:

data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)

请注意,这个数据集中的技巧是,给定一个值,有太多不同的值,我们无法做出好的预测来满足所有这些值。同时,之间存在“强”线性相关性。如果我们拟合线性模型,我们将得到显着的系数,但 R 平方较低。xyxy

fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)

Call:
lm(formula = data[, 2] ~ data[, 1])

Residuals:
     Min       1Q   Median       3Q      Max 
-203.331  -59.647   -1.252   68.103  195.669 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  123.910      8.428   14.70   <2e-16 ***
data[, 1]     80.421      4.858   16.56   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared:  0.2814,    Adjusted R-squared:  0.2804 
F-statistic: 274.1 on 1 and 700 DF,  p-value: < 2.2e-16

在此处输入图像描述

用一种简单的方式(过于简单化)来证明某件事很重要,您需要强大的效果和/或大量数据。如果您有足够的数据,即使在效果很小(小这不仅限于线性回归。R2

线性回归具有统计显着性但 r 平方非常低意味着什么?

这意味着自变量和因变量之间存在线性关系,但这种关系可能不值得讨论。

然而,关系的意义在很大程度上取决于您正在检查的内容,但通常,您可以将其理解为不应将统计意义与相关性混淆。

如果样本量足够大,即使是最微不足道的关系也可以被发现具有统计学意义。