我对LASSO回归的理解是选择回归系数来解决最小化问题:
在实践中,这是使用拉格朗日乘数完成的,使问题得到解决
和t之间有什么关系?维基百科无益地简单地指出这是“数据依赖”。
我为什么在乎?首先是为了求知欲。但我也担心通过交叉验证 选择
具体来说,如果我正在进行 n 次交叉验证,我会将 n 个不同的模型拟合到我的训练数据的 n 个不同分区。然后,我比较每个模型在给定的未使用数据上的准确性。但是对于不同的数据子集,相同的意味着不同的约束 ( )(即是“数据相关的”)。
我真的想解决的交叉验证问题不是找到能够提供最佳偏差精度权衡 的
通过计算每个交叉验证拆分和λ的\|\beta\|_1并查看结果分布,我可以在实践中大致了解这种效果的大小。在某些情况下,隐含的约束 ( t ) 在我的交叉验证子集中可能会发生很大变化。其中,我的意思是t>>0的变异系数。