LASSO 之间的关系λλ和吨t

机器算法验证 优化 套索 正则化 拉格朗日乘数
2022-03-15 23:32:23

我对LASSO回归的理解是选择回归系数来解决最小化问题:

minβyXβ22 s.t.β1t

在实践中,这是使用拉格朗日乘数完成的,使问题得到解决

minβyXβ22+λβ1

λt之间有什么关系t维基百科无益地简单地指出这是“数据依赖”。

我为什么在乎?首先是为了求知欲。但我也担心通过交叉验证 选择λ

具体来说,如果我正在进行 n 次交叉验证,我会将 n 个不同的模型拟合到我的训练数据的 n 个不同分区。然后,我比较每个模型在给定λ的未使用数据上的准确性。但是对于不同的数据子集,相同的λ意味着不同的约束 ( t )(即t=f(λ)是“数据相关的”)。

我真的想解决的交叉验证问题不是找到能够提供最佳偏差精度权衡 的t

通过计算每个交叉验证拆分和λ的\|\beta\|_1并查看结果分布,我可以在实践中大致了解这种效果的大小。在某些情况下,隐含的约束 ( t ) 在我的交叉验证子集中可能会发生很大变化。其中,我的意思是t>>0的变异系数β1λtt>>0

1个回答

这是岭回归的标准解决方案

β=(XX+λI)1Xy

我们也知道,所以它必须是真的β=t

(XX+λI)1Xy=t

来说,这并不容易解决λ

你最好的选择是继续做你正在做的事情:在多个tλ