如果不是高维设置,我可以使用套索吗?

机器算法验证 特征选择 套索 正则化 岭回归 高维
2022-03-19 04:05:24

我有 500 个观察值和 200 个预测变量,我想在选择一些重要特征的同时进行预测。我知道正则化方法(岭、套索)是高维设置的收缩方法,套索也有模型选择的优势。事实上,具有 500 个观察值和 200 个预测变量的设置不是高维设置,但我想做一些特征选择,因为我有 200 个特征。如果不是高维设置,我可以使用套索吗?

3个回答

没有任何迹象表明您需要多个预测变量 ( ) 大至 200 或样本大小 ( ) 大至 500,更不用说更大了。(阅读有关这两种方法的一些早期论文,您可能会感到惊讶。)pn

您可以非常成功地使用岭回归和套索等正则化方法来解决只有几个预测变量的问题——正则化的好处仍然存在(实际上,这里的插图显示岭回归可以对两个预测变量有用,并且可以为即使使用单个预测器也要考虑它。)

给定的设置是否是高维的,取决于您拥有的样本数和维数。增加维度的数量需要成倍增加的数据来“填充”特征空间——查看维度的诅咒。

500 个观测值的 200 个预测变量是一个巨大的预测变量。

我想您是在谈论当 p n 或 p > n(作为高维)时的设置,套索具有解决上述设置中出现的奇点问题的额外优势,这是开发正则化的首要动机(这就是为什么多用于更高维度)。更多关于这个here至于您的情况,除了套索的上述优势外,正如其他答案所述,它保留了其他优势,例如减少模型方差、子集选择等。