Lasso 之前的标准化真的有必要吗?

机器算法验证 正常化 套索 标准化 正则化
2022-01-22 17:56:38

Lasso在回归之类的事情之前,我已经阅读了标准化变量的三个主要原因:

1) 系数的可解释性。

2) 能够通过收缩后系数估计的相对大小对系数重要性进行排序。

3)无需拦截。

但我想知道最重要的一点。我们有理由认为标准化会改善模型的样本外泛化吗?另外,我不在乎我的模型中是否不需要截距;添加一个不会伤害我。

3个回答

Lasso 回归限制了与每个变量相关的系数的大小。但是,该值将取决于每个变量的大小。因此,有必要集中和减少或标准化变量。

使变量居中的结果意味着不再有截距。顺便说一下,这同样适用于岭回归。

另一个很好的解释是这篇文章:需要在回归中对数据进行中心化和标准化

L1 惩罚参数是绝对 beta 项的总和。如果变量都是不同维度的,那么即使在数学上没有任何错误,这个项实际上也不是加法的。

但是,我没有看到虚拟/分类变量受到这个问题的影响,并且认为它们不需要标准化。标准化这些可能只会降低变量的可解释性

如果标准化是指将所有变量转换为 z 分数(通常是这种情况),那么您可能需要考虑对预先缩放的数据集进行 z 评分可能会导致噪声放大。也就是说,在应用 z 评分后,具有低方差的变量可能会放大测量噪声。