机器算法验证 - Lasso 之前的标准化真的有必要吗？ - 吾爱随笔录

机器算法验证正常化套索标准化正则化

2022-01-22 17:56:38

Lasso在回归之类的事情之前，我已经阅读了标准化变量的三个主要原因：

1) 系数的可解释性。

2) 能够通过收缩后系数估计的相对大小对系数重要性进行排序。

3）无需拦截。

但我想知道最重要的一点。我们有理由认为标准化会改善模型的样本外泛化吗？另外，我不在乎我的模型中是否不需要截距；添加一个不会伤害我。

3个回答

Lasso 回归限制了与每个变量相关的系数的大小。但是，该值将取决于每个变量的大小。因此，有必要集中和减少或标准化变量。

使变量居中的结果意味着不再有截距。顺便说一下，这同样适用于岭回归。

L1 惩罚参数是绝对 beta 项的总和。如果变量都是不同维度的，那么即使在数学上没有任何错误，这个项实际上也不是加法的。

但是，我没有看到虚拟/分类变量受到这个问题的影响，并且认为它们不需要标准化。标准化这些可能只会降低变量的可解释性

如果标准化是指将所有变量转换为 z 分数（通常是这种情况），那么您可能需要考虑对预先缩放的数据集进行 z 评分可能会导致噪声放大。也就是说，在应用 z 评分后，具有低方差的变量可能会放大测量噪声。

其它你可能感兴趣的问题