我正在做一个项目,在该项目中,我使用几个自变量来“预测”使用线性回归的结果值。
在 R 中,这很简单,因为
model <- lm(outcome ~ predictor1 + predictor2 + predictor3)
fitted <- model$fitted.values
我对预测值和实际值之间的差异感兴趣- 即预测变量的准确性。
residuals <- model$residuals
residuals我的问题与和之间的关系有关outcome。
具有较低值的样本outcome往往具有负值,对于具有较高值residuals的样本,反之亦然。outcome
将这些值相互绘制是查看这一点的最简单方法:

这对于原始 LM(结果 ~ 预测变量)为 0.42,则residuals和之间outcome为 0.58,并且fitted和之间outcome为 0.39。
什么可以解释这种现象?为什么高样本的outcome预测值往往低于实际值,反之亦然outcome?或者实际上,我在这里是否在概念上遗漏了一些东西?
非常感谢您的意见
编辑(13.08.20)以包括更新的图和术语(现在使用“残差”而不是“差异”) - 但本质上问题保持不变。到目前为止,感谢所有人的投入。