逐步回归与弹性网络

机器算法验证 套索 r平方 逐步回归 弹性网
2022-03-28 14:35:12

我知道逐步回归分析有很多局限性,包括假设预测变量彼​​此之间的相关性不高。事实上,这个限制是我改用 Elastic Net 的最重要原因,因为我的模型中有 75 个预测变量,其中一些是高度相关的。

使用 Elastic Net,我可以将预测变量减少到 21 个。我在多线性回归模型中使用了这 21 个变量并计算了决定系数 (R2=0.58)。

但是,当我对相同的数据使用逐步分析时,只选择了 11 个变量,而 R 方保持不变!这是否意味着我的逐步分析结果可以解释更高比例的结果?如果是这样,当我获得更好的结果时,如何证明 Elastic Net 上的逐步分析的局限性?

1个回答

你的问题有一个隐含的假设,即R2是拟合质量的良好度量,适用于模型之间的比较。我认为你的背景信息提供了证据R2对于您正在尝试做的事情来说,这不是一个好工具。毕竟可以增加R2通过向模型中添加无意义的变量。

您是否采用了使用弹性网络找到的变量并使用这些变量重新拟合了新的回归模型,而不是使用弹性网络拟合的估计值?这有点像将您的数据输入到一个不错的统计软件程序中,然后使用它对数据进行四舍五入并打印出来,这样您就可以使用算盘计算平均值。

如果您想要尽可能少的预测变量(并且仍然获得合理的拟合),那么套索方法往往会导致比弹性网络方法更少的预测变量。elasticnet 方法的优势不在于找到最少的变量,而是在于找到一个好的模型,该模型利用变量中的信息并避免使用逐步模型获得的偏差。

更好的比较是他们对一组新观察结果的预测程度,或者可能是新闻统计数据或交叉验证。