我了解逐步回归的许多问题中的一些。但是,作为一项学术工作,假设我想对预测模型使用逐步回归,并且我想更好地了解它可能对性能产生的影响。
例如,给定一个线性模型,当呈现新数据时,对模型执行逐步回归是否倾向于增加或降低模型的预测能力?
逐步回归对预测能力有什么理论上的影响吗?
实践经验也会有所帮助;可能是逐步回归增强预测的情况,而当它没有增强预测时。
我了解逐步回归的许多问题中的一些。但是,作为一项学术工作,假设我想对预测模型使用逐步回归,并且我想更好地了解它可能对性能产生的影响。
例如,给定一个线性模型,当呈现新数据时,对模型执行逐步回归是否倾向于增加或降低模型的预测能力?
逐步回归对预测能力有什么理论上的影响吗?
实践经验也会有所帮助;可能是逐步回归增强预测的情况,而当它没有增强预测时。
逐步选择存在各种问题。我在这里的回答中逐步讨论了:自动模型选择算法。在那个答案中,我主要关注的不是推理问题,而是系数有偏差的事实(尝试的运动员类似于变量)。由于系数偏离其真实值,因此应扩大样本外预测误差,在其他条件不变的情况下。
考虑偏差-方差权衡的概念。如果您将模型的准确性视为预测误差的方差(即 MSE:),则预期预测误差是三个不同方差来源的总和:
考虑到这些想法,我在顶部链接的答案的重点是引发了大量的偏见。在所有条件相同的情况下,这将使样本预测变得更糟。不幸的是,逐步选择不会减少估计的方差。充其量,它的方差是相同的,但它也很可能使方差变得更糟(例如,@Glen_b 报告只有 15.5% 的时间是在此处讨论的模拟研究中甚至选择了正确的变量:为什么执行逐步选择后 p 值是否会误导?)。
确切的效果将取决于模型和“真相”,当然,我们无法知道。您可以通过交叉验证或使用简单的训练和测试方法来查看在任何特定情况下逐步执行的效果。