我理解这意味着该模型在预测单个数据点方面很糟糕,但已经建立了一个坚定的趋势(例如,当 x 上升时,y 上升)。
线性回归具有统计显着性但 r 平方非常低意味着什么?
机器算法验证
回归
推理
r平方
线性的
2022-01-29 15:46:55
4个回答
这意味着您可以解释数据中的一小部分方差。例如,您可以确定大学学位会影响薪水,但同时这只是一个小因素。还有很多其他因素会影响你的薪水,大学学位的贡献很小,但可以检测到。
实际上,这可能意味着大学学位平均每年使工资增加500美元,而人们工资的标准差为10K美元。因此,许多受过大学教育的人的薪水低于未受过教育的人,并且您的模型的预测价值很低。
这意味着“不可约误差很高”,即我们能做的最好的事情(使用线性模型)是有限的。例如下面的数据集:
data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)
请注意,这个数据集中的技巧是,给定一个值,有太多不同的值,我们无法做出好的预测来满足所有这些值。同时,和之间存在“强”线性相关性。如果我们拟合线性模型,我们将得到显着的系数,但 R 平方较低。
fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)
Call:
lm(formula = data[, 2] ~ data[, 1])
Residuals:
Min 1Q Median 3Q Max
-203.331 -59.647 -1.252 68.103 195.669
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 123.910 8.428 14.70 <2e-16 ***
data[, 1] 80.421 4.858 16.56 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared: 0.2814, Adjusted R-squared: 0.2804
F-statistic: 274.1 on 1 and 700 DF, p-value: < 2.2e-16
用一种简单的方式(过于简单化)来证明某件事很重要,您需要强大的效果和/或大量数据。如果您有足够的数据,即使在效果很小(小这不仅限于线性回归。
线性回归具有统计显着性但 r 平方非常低意味着什么?
这意味着自变量和因变量之间存在线性关系,但这种关系可能不值得讨论。
然而,关系的意义在很大程度上取决于您正在检查的内容,但通常,您可以将其理解为不应将统计意义与相关性混淆。
如果样本量足够大,即使是最微不足道的关系也可以被发现具有统计学意义。
其它你可能感兴趣的问题