什么会导致残差图完全高于 0?

机器算法验证 回归 多重回归 数据可视化
2022-04-13 21:05:40

什么会导致回归模型总是预测不足?

一年多以来,我的一位同事一直在为客户制作一个线性模型,该模型以合理的准确性预测趋势,但总是低于预测幅度。

这困扰了我一段时间,每次看到或想起它,我都会试图找出原因并做空。

编辑:阅读评论我意识到我说错了。模型的聚合总是低于实际值,而不是残差“总是”有偏差。除了责备咖啡/睡眠等,我不知道如何优雅地恢复。我想问的是更接近这一点,每个月的实际结果总和都大于“每次”的预测结果。

2个回答

总结到目前为止的各种评论和答案:

  1. 如果预测基于不属于训练样本的数据,则训练数据和预测数据之间可能存在系统差异。例如,如果您正在拟合时间序列数据并且数据包含向上弯曲的趋势,那么使用线性模型从过去预测未来将导致平均预测不足。

  2. 如果模型总是低估训练数据(甚至只是平均),它可能是一种不太常用的线性模型,例如分位数回归模型;或者它可能不包含截距(或可以线性组合形成截距的项)。

  3. 如果模型是标准线性最小二乘并且确实包含截距或等效的跨度项,那么 Benjamin 的帖子是正确的。你观察到的现象不可能发生。因此,用于模型训练或预测的计算代码肯定存在错误。

我们将假设线性回归拟合是通过最小二乘法进行的,包含一个截距,残差图是来自训练数据的。

从正规方程中,我们看到回归的残差具有样本均值 0。因此,残差图不可能完全高于 0。在可视化/计算中一定存在错误。