什么会导致回归模型总是预测不足?
一年多以来,我的一位同事一直在为客户制作一个线性模型,该模型以合理的准确性预测趋势,但总是低于预测幅度。
这困扰了我一段时间,每次看到或想起它,我都会试图找出原因并做空。
编辑:阅读评论我意识到我说错了。模型的聚合总是低于实际值,而不是残差“总是”有偏差。除了责备咖啡/睡眠等,我不知道如何优雅地恢复。我想问的是更接近这一点,每个月的实际结果总和都大于“每次”的预测结果。
什么会导致回归模型总是预测不足?
一年多以来,我的一位同事一直在为客户制作一个线性模型,该模型以合理的准确性预测趋势,但总是低于预测幅度。
这困扰了我一段时间,每次看到或想起它,我都会试图找出原因并做空。
编辑:阅读评论我意识到我说错了。模型的聚合总是低于实际值,而不是残差“总是”有偏差。除了责备咖啡/睡眠等,我不知道如何优雅地恢复。我想问的是更接近这一点,每个月的实际结果总和都大于“每次”的预测结果。
总结到目前为止的各种评论和答案:
如果预测基于不属于训练样本的数据,则训练数据和预测数据之间可能存在系统差异。例如,如果您正在拟合时间序列数据并且数据包含向上弯曲的趋势,那么使用线性模型从过去预测未来将导致平均预测不足。
如果模型总是低估训练数据(甚至只是平均),它可能是一种不太常用的线性模型,例如分位数回归模型;或者它可能不包含截距(或可以线性组合形成截距的项)。
如果模型是标准线性最小二乘并且确实包含截距或等效的跨度项,那么 Benjamin 的帖子是正确的。你观察到的现象不可能发生。因此,用于模型训练或预测的计算代码肯定存在错误。
我们将假设线性回归拟合是通过最小二乘法进行的,包含一个截距,残差图是来自训练数据的。
从正规方程中,我们看到回归的残差具有样本均值 0。因此,残差图不可能完全高于 0。在可视化/计算中一定存在错误。