如果 p > n,lasso 最多选择 n 个变量

机器算法验证 回归 优化 特征选择 套索
2022-01-27 17:04:53

弹性网的动机之一是 LASSO 的以下限制:

的情况下,由于凸优化问题的性质,套索在饱和之前最多选择 n 个变量。这似乎是变量选择方法的限制特征。此外,除非系数的 L1 范数的界限小于某个值,否则套索的定义并不明确。p>n

http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full

我知道 LASSO 是一个二次规划问题,但也可以通过 LARS 或逐元素梯度下降来解决。但是我不明白如果在这些算法中我遇到问题的地方,其中是预测变量的数量,是样本大小。以及为什么使用弹性网解决了这个问题,我将问题扩大到变量p>npnp+np

2个回答

如前所述,这不是算法的属性,而是优化问题的属性。KKT 条件基本上给出了对于系数非零,它必须对应于与残差是正则化参数)。βj|Xjt(yXβ)|=λλ

在用绝对值等解决各种复杂问题后,每个非零系数都有一个线性方程。由于的秩最多为n ,这是可以求解的方程的数量,因此最多有 n 个非零(除非存在冗余)。Xnp>n

顺便说一句,这对于任何损失函数都是如此,不仅是具有损失的标准套索。所以它实际上是套索惩罚的一个属性。有许多论文展示了这种 KKT 观点和由此得出的结论,我可以指出我们的论文:Rosset 和 Zhu, Piecewise Linear Regularized Solutions Paths, Annals of Stats 2007 和其中的参考文献。L2

另一种解释如下:如果,则数据矩阵的秩最多为,因此其(右)零空间的维数至少为 将此零空间中的任何向量写为那么在任何可行的点,人们总是可以在这个维环境空间的坐标轴移动,以到达,其中(最多) s 非零,LASSO 目标函数n<pXnpnzβpnpβ+zn βj

yX(β+z)22+λβ+z1=yXβ22+λβ+z1<yXβ22+λβ1

已经减少了。