单独缩放功能?

数据挖掘 机器学习 预处理 正常化 特征缩放
2022-03-11 17:11:35

我有一些成千上万的功能,我将其扩展到这些功能的最大值。这解决了一般的缩放问题,并保留了这些特征之间的重要绝对值关系,否则这些特征会丢失。

但是,我还有一些其他的特性,它们从一开始就自然存在于 [0,1] 中(因为它们来自比率)。简单地跳过这些缩放是否有意义,因为将它们除以与上面相同的最大值(例如 10,000)会破坏它们?

显然我已经对其进行了测试,并发现它在实践中有效,但是有没有任何合理的数学论据反对这一点?我没有看到或听到任何关于这件事的想法。

1个回答

是的,这些功能不应该一起缩放。通常所有特征都是单独缩放的,所以分组缩放是例外而不是常态。来自关于特征缩放的维基百科

由于原始数据的取值范围变化很​​大,在一些机器学习算法中,如果不进行归一化,目标函数将无法正常工作。例如,大多数分类器通过欧几里得距离计算两点之间的距离。如果其中一个要素具有广泛的值范围,则距离将由该特定要素控制。因此,应该对所有特征的范围进行归一化,以便每个特征对最终距离的贡献大致成比例。

如果您知道某些要素以相同的比例存在,则可以将它们一起缩放,即“Sales January”与“Sales February”一起缩放。但是您不应该将存在于不同尺度上的事物缩放在一起,即“Sales January”和“Discount Ratio”应该分开缩放。