标准化 one-hot 编码特征的可能危害

数据挖掘 线性回归 管道 一热编码 共线性
2021-09-27 15:07:43

虽然在应用线性模型之前标准化 one-hot 编码特征可能没有任何附加价值,但这样做是否有任何危害(即影响模​​型性能)?

标准化定义:应用 (x - mean) / std 使特征均值和标准分别为 0、1)

我更喜欢在 one-hot 编码后将标准化应用于我的整个训练数据集,而不是仅将其应用于数字特征。我觉得这将大大简化我的管道。

例如,如果我有一个二元特征,那么将提供给模型的向量是 [1,1,0,0,0,1,1]。

如果在拟合模型之前对该二元特征应用标准化(减去均值 = ~0.57 并除以 std = ~ 0.49),向量将变为

[0.8660254,0.8660254,-1.15470054,-1.15470054,-1.15470054,0.8660254,0.8660254]

2个回答

对于未惩罚的线性模型,没有区别。系数将仅缩放以抵消变量的新比例,并且截距将移动以补偿居中。

但是,使用惩罚线性模型会有所不同。由于二元变量的标准差最多为1/2,您将通过标准化来增加变量的整体规模。这将导致未惩罚系数的幅度减小,这将改变惩罚如何应用于不同特征的平衡。怀疑没有“更好”的方法:有时当假人被缩放时惩罚会提高性能,有时会降低性能。

标准化 one-hot 编码特征是没有意义的。One-hot 编码意味着特征的测量级别是名义/分类的。标准化意味着特征的度量水平至少是间隔。

例如,如果要素是原产国。由于该功能是分类的,因此 one-hot 编码是有意义的。一个人是否来自一个国家。取原产国的平均值会产生没有意义的数字。