这个残差与拟合图对我的模型意味着什么?

机器算法验证 r 回归 相关性 预测模型 线性模型
2022-03-30 14:13:19

我有一个模型,它试图通过对避孕的道德冷漠和对赌博的道德拒绝来预测一个国家的生活质量指数。最初模型包含几个预测变量,但我通过 AIC 使用反向消除消除了大部分。这是模型的摘要(使用 R 生成):

> summary(fit1)

Call:
lm(formula = Quality.of.life.index ~ Morally.unacceptable.ga + 
    Not.a.moral.issue.co, data = qli_and_moral_ind)

Residuals:
    Min      1Q  Median      3Q     Max 
-89.670 -25.443  -4.732  36.129  64.441 

Coefficients:
                        Estimate Std. Error t value Pr(>|t|)    
(Intercept)             143.1410    32.7499   4.371  0.00019 ***
Morally.unacceptable.ga  -1.7690     0.3603  -4.910 4.71e-05 ***
Not.a.moral.issue.co      1.4471     0.7925   1.826  0.07981 .  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 40.39 on 25 degrees of freedom
Multiple R-squared:  0.6079,    Adjusted R-squared:  0.5765 
F-statistic: 19.38 on 2 and 25 DF,  p-value: 8.266e-06

该模型有两个我无法解释的图:

标准 QQ 图残差与拟合图

根据网络,上面的残差图可能表示可预测的错误,即我的模型中缺少一些变量。这个评价正确吗?如果是这样,我应该考虑在模型中添加什么?它看起来像y=x3x图 - 也许添加一个立方项?

1个回答

第一个图 ( Normal Q-Qplot) 检查残差是否服从正态分布,这是线性回归的假设。如果点在线上y=x,则表示残差是正态分布的。在这方面,您的情节似乎还可以。

Residuals _versus_ Fitted图有助于说明线性模型是否存在:

  1. 响应变量和预测变量之间的非线性关系。

图中的水平趋势线表示响应变量和预测变量之间不存在非线性模式,这在线性模型中是预期的。

  1. 异方差性(又称方差异质性)。

当残差沿拟合值分布不均时,模型将表现出异方差性。

但是,正如@BenBolker 所建议的,可视化同质/异方差性的更好选择是Scale-Location绘图(它使用 标准化残差与拟合值),原因如下:

但是为什么异方差性不好呢?

根据维基百科的文章:

...异方差的存在可以使显着性统计检验无效,这些检验假设建模误差不相关且呈正态分布,并且它们的方差不随所建模的影响而变化。

换句话说,如果观察到异方差性,参数的标准误差(通过 t 检验计算)将没有多大意义。

不过,你的情节似乎还可以。


一篇很好的补充文章是来自弗吉尼亚大学 Bommae Kim的了解线性回归分析的诊断图。