Lasso
在回归之类的事情之前,我已经阅读了标准化变量的三个主要原因:
1) 系数的可解释性。
2) 能够通过收缩后系数估计的相对大小对系数重要性进行排序。
3)无需拦截。
但我想知道最重要的一点。我们有理由认为标准化会改善模型的样本外泛化吗?另外,我不在乎我的模型中是否不需要截距;添加一个不会伤害我。
Lasso
在回归之类的事情之前,我已经阅读了标准化变量的三个主要原因:
1) 系数的可解释性。
2) 能够通过收缩后系数估计的相对大小对系数重要性进行排序。
3)无需拦截。
但我想知道最重要的一点。我们有理由认为标准化会改善模型的样本外泛化吗?另外,我不在乎我的模型中是否不需要截距;添加一个不会伤害我。
Lasso 回归限制了与每个变量相关的系数的大小。但是,该值将取决于每个变量的大小。因此,有必要集中和减少或标准化变量。
使变量居中的结果意味着不再有截距。顺便说一下,这同样适用于岭回归。
另一个很好的解释是这篇文章:需要在回归中对数据进行中心化和标准化
L1 惩罚参数是绝对 beta 项的总和。如果变量都是不同维度的,那么即使在数学上没有任何错误,这个项实际上也不是加法的。
但是,我没有看到虚拟/分类变量受到这个问题的影响,并且认为它们不需要标准化。标准化这些可能只会降低变量的可解释性
如果标准化是指将所有变量转换为 z 分数(通常是这种情况),那么您可能需要考虑对预先缩放的数据集进行 z 评分可能会导致噪声放大。也就是说,在应用 z 评分后,具有低方差的变量可能会放大测量噪声。