虽然在应用线性模型之前标准化 one-hot 编码特征可能没有任何附加价值,但这样做是否有任何危害(即影响模型性能)?
标准化定义:应用 (x - mean) / std 使特征均值和标准分别为 0、1)
我更喜欢在 one-hot 编码后将标准化应用于我的整个训练数据集,而不是仅将其应用于数字特征。我觉得这将大大简化我的管道。
例如,如果我有一个二元特征,那么将提供给模型的向量是 [1,1,0,0,0,1,1]。
如果在拟合模型之前对该二元特征应用标准化(减去均值 = ~0.57 并除以 std = ~ 0.49),向量将变为
[0.8660254,0.8660254,-1.15470054,-1.15470054,-1.15470054,0.8660254,0.8660254]