逐步回归技术会增加模型的预测能力吗?

机器算法验证 回归 预测模型 逐步回归
2022-03-21 21:59:58

我了解逐步回归的许多问题中的一些。但是,作为一项学术工作,假设我想对预测模型使用逐步回归,并且我想更好地了解它可能对性能产生的影响。

例如,给定一个线性模型,当呈现新数据时,对模型执行逐步回归是否倾向于增加或降低模型的预测能力?

逐步回归对预测能力有什么理论上的影响吗?

实践经验也会有所帮助;可能是逐步回归增强预测的情况,而当它没有增强预测时。

2个回答

逐步选择存在各种问题。我在这里的回答中逐步讨论了:自动模型选择算法在那个答案中,我主要关注的不是推理问题,而是系数有偏差的事实(尝试的运动员类似于变量)。由于系数偏离其真实值,因此应扩大样本外预测误差,在其他条件不变的情况下。

考虑偏差-方差权衡的概念。如果您将模型的准确性视为预测误差的方差(即 MSE:),则预期预测误差是三个不同方差来源的总和:1/n(yiy^i)2

E[(yiy^i)2]=Var(f^)+[Bias(f^)]2+Var(ε)
这三个项分别是您对函数的估计的方差、估计的偏差的平方和数据生成过程中的不可约误差。(后者的存在是因为数据不是确定性的——你永远不会得到比平均值更接近的预测。)前两个来自用于估计模型的过程。默认情况下,我们可能认为OLS是用于估计模型的过程,但更正确的说法是逐步选择 OLS 估计是过程。偏差-方差权衡的想法是,尽管解释模型正确地强调了无偏性,但如果方差充分降低,预测模型可能会受益于使用有偏过程(有关更全面的解释,请参见:收缩方法解决了什么问题?)。

考虑到这些想法,我在顶部链接的答案的重点是引发了大量的偏见。在所有条件相同的情况下,这将使样本预测变得更糟。不幸的是,逐步选择不会减少估计的方差。充其量,它的方差是相同的,但它也很可能使方差变得更糟(例如,@Glen_b 报告只有 15.5% 的时间是在此处讨论的模拟研究中甚至选择了正确的变量:为什么执行逐步选择后 p 值是否会误导?)。

确切的效果将取决于模型和“真相”,当然,我们无法知道。您可以通过交叉验证或使用简单的训练和测试方法来查看在任何特定情况下逐步执行的效果。