我什么时候不应该缩放特征

数据挖掘 特征缩放
2021-10-02 05:25:35

当使用基于距离、方差或梯度的方法(KNN、PCA、神经网络......)时,特征缩放可能是至关重要的,因为根据具体情况,它可以提高结果的质量或计算工作量。

在某些情况下(尤其是基于树的模型),缩放对性能没有影响。

关于什么时候应该扩展他们的功能,以及为什么他们应该这样做,有很多讨论。除了可解释性(只要可以恢复缩放就不是问题),我想知道相反的情况:是否存在缩放是一个坏主意的情况,即会对模型质量产生负面影响?或者不太重要的是,计算时间?

4个回答

缩放通常假设您知道最小/最大值平均值/标准偏差,因此直接缩放这些信息并不知道的特征可能不是一个好主意。

例如,削波信号可能会隐藏此信息,因此缩放它们可能会产生负面结果,因为您可能会扭曲其真实值。

下面是 1) 可以缩放的信号和 2)不应进行缩放的削波信号的图像。

https://mackie.com/blog/what-c​​lipping

想到的例子是图像;在使用 CNN 处理之前,我从未听说过缩放像素强度。据推测,保持特征之间的平均差异是有用的——例如,它可能表明右上角通常不太红,等等。

如果特征是相关的,不要缩放它们。单独对每个要素应用缩放可能会损坏数据。这取决于您将应用的数据、问题和运营商。

一个直接的例子是PCA之前的标准缩放白化数据通过对每个方差进行归一化,这些缩放消除了协方差矩阵的特征值的相对大小。因此,它违背了 PCA 的目的。