我应该从我的回归模型中删除不重要的变量吗

机器算法验证 多重回归 模型 逐步回归 回归策略
2022-03-05 02:29:18

我已经使用逐步回归运行多元线性回归来选择最佳模型,但是返回的最佳模型具有非显着变量。当我删除它时,AIC 值上升,表明没有显着变量的模型更适合。我应该删除不重要的预测变量还是应该保留它,因为它是一个更好的模型?

3个回答

保留它。数据无法真正告诉您哪个模型“更好”,除非您以高度结构化的方式使用 AIC(例如,在预先指定的大量变量上),并且删除无关紧要的变量会使和所有值、标准误差和置信限,以及使调整后的的公式无效。这个网站上有很多关于这些问题的文章。σ2PR2

注意:弗兰克哈雷尔回答的一个推论是,首先不应该使用逐步变量选择。也就是说,不仅丢弃最终的“剩余”非显着协变量是错误的,而且采用旨在在相互依存且不可复制的时尚。

您需要在多个测试数据集上测试您的模型。AIC 是模型拟合而不是准确性的度量。请阅读本书第 3.3 节(子集选择)-

http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf

建议删除变量有两个原因-

首先是预测精度:保持所有变量通常具有低偏差但大方差。有时可以通过缩小或将某些系数设置为零来提高预测准确性。通过这样做,我们牺牲了一点偏差来减少预测值的方差,从而可以提高整体预测精度。

第二个原因是解释。对于大量的预测变量,我们经常希望确定一个较小的子集,它表现出最强的效果。为了获得“大局”,我们愿意牺牲一些小细节。