将输入数据归一化为零均值时会出现哪些情况,单位方差不合适或无益?

数据挖掘 机器学习 特征缩放 正常化
2021-09-16 14:54:33

我在机器学习中多次看到输入数据归一化为零均值、单位方差。这是一直做的好习惯,还是有时不合适或无益?

1个回答

可以在此处找到该问题的详细答案。

[...] 是否有不合适或无益的时候?

简短的回答:是和。在条款中是的,它可以显着改变您的输出,例如聚类算法。,另一方面,如果这些更改是您想要实现的。或者用上述来源的作者的话来说:

聚类算法的缩放特征可以大大改变结果。想象一下原点周围的四个集群,每个集群位于不同的象限,都很好地缩放。现在,想象一下 y 轴被拉伸到 x 轴长度的十倍。而不是四个小象限集群,您将获得沿其长度切成四块的长压扁数据面包!(而且,重要的是,您可能更喜欢其中任何一个!)

带回家的信息是:始终仔细考虑您想要实现的目标以及您的算法喜欢什么样的数据 - 这很重要