在具有分类属性和数值属性组合的情况下,我通常将分类属性转换为一个热向量。我的问题是我是否保留这些向量并通过标准化/归一化缩放数值属性,还是应该将一个热向量与数值属性一起缩放?
一个热向量是否应该使用数字属性进行缩放
数据挖掘
特征工程
特征缩放
数据科学模型
2021-10-09 22:42:27
1个回答
一旦转换为数字形式,模型对 one-hot-encoded 列的响应与对任何其他数字数据的响应没有什么不同。因此,如果您出于任何原因准备其他列,则有一个明确的先例来规范化 {0,1} 值。
这样做的效果将取决于模型类和您应用的归一化类型,但我注意到在训练神经网络时,当缩放为均值 0 时,对于单热编码的分类数据,标准为 1 时有一些(小的)改进。
它也可能对基于距离度量的模型类产生影响。
不幸的是,就像大多数此类选择一样,您通常必须尝试两种方法并采用具有最佳指标的方法。
其它你可能感兴趣的问题