机器算法验证 - 什么会导致残差图完全高于 0？ - 吾爱随笔录

机器算法验证回归多重回归数据可视化

2022-04-13 21:05:40

什么会导致回归模型总是预测不足？

一年多以来，我的一位同事一直在为客户制作一个线性模型，该模型以合理的准确性预测趋势，但总是低于预测幅度。

这困扰了我一段时间，每次看到或想起它，我都会试图找出原因并做空。

编辑：阅读评论我意识到我说错了。模型的聚合总是低于实际值，而不是残差“总是”有偏差。除了责备咖啡/睡眠等，我不知道如何优雅地恢复。我想问的是更接近这一点，每个月的实际结果总和都大于“每次”的预测结果。

2个回答

总结到目前为止的各种评论和答案：

如果预测基于不属于训练样本的数据，则训练数据和预测数据之间可能存在系统差异。例如，如果您正在拟合时间序列数据并且数据包含向上弯曲的趋势，那么使用线性模型从过去预测未来将导致平均预测不足。
如果模型总是低估训练数据（甚至只是平均），它可能是一种不太常用的线性模型，例如分位数回归模型；或者它可能不包含截距（或可以线性组合形成截距的项）。
如果模型是标准线性最小二乘并且确实包含截距或等效的跨度项，那么 Benjamin 的帖子是正确的。你观察到的现象不可能发生。因此，用于模型训练或预测的计算代码肯定存在错误。

我们将假设线性回归拟合是通过最小二乘法进行的，包含一个截距，残差图是来自训练数据的。

从正规方程中，我们看到回归的残差具有样本均值 0。因此，残差图不可能完全高于 0。在可视化/计算中一定存在错误。

其它你可能感兴趣的问题