为什么零截距线性回归模型比具有截距的模型预测得更好?

机器算法验证 回归 预测模型
2022-03-15 10:06:25

许多教科书和论文都说不应该压制拦截。最近,我使用了一个训练数据集来构建一个带或不带截距的线性回归模型。我惊讶地发现,在独立验证数据集中,就 rmse 而言,没有截距的模型比有截距的模型预测得更好。预测准确性是我应该使用零截距模型的原因之一吗?

4个回答

我认为您不应该仅仅因为它们在特定样本中工作得更好而选择模型,尽管您使用训练和验证样本是件好事。

相反,请查看模型对您的情况的看法。在某些情况下,零截距模型是有意义的。如果所有 IV 都为 0 时 DV 应该为 0,则使用零截距模型。否则,不要。

实质性知识应该指导统计,而不是相反

如果满足两个条件,则无截距模型可能有意义。首先,应该有一个合理的主题知识预期,截距为零。其次,当你接近零时,回归线应该有一个合理的主题知识预期保持直线。即使两个条件都满足,明智的做法是使用截距项运行分析并验证截距与零没有显着差异。

(我假设您在谈论连续 Y 和连续 X。)

在将无截距模型与截距模型进行比较时,请仔细查看 rmse 或其他统计量是如何计算的。有时,两个模型之间的假设和计算不同,一个可能更适合,但看起来更好,因为它被更大的东西分开。

如果没有可重复的示例,很难说出可能有什么贡献。

如果您获得的截距仅仅是噪音——而不是信号,这将是可以理解的。不同于零。(我认为这两个模型中的标准化回归系数几乎相同吗?)如果是这样,我认为您不应该从这个例子中进行概括。当拦截是信号时。并且实质性,它们为预测准确性增加了一些有意义的东西。