归一化的选择是否会显着改变 KMeans 的结果

数据挖掘 聚类 k-均值 正常化 工作室
2021-10-15 13:31:11

我正在使用 KMeans 根据几列获取多个用户的个人资料(我正在使用 RStudio)。

为了分析我的集群,我决定实现一个雷达图,所以我决定使用特征缩放:x-min(x)/diff(range(x)),让我的值在 [0,1] 中(以便很好地了解每个集群的数据)。但是,由于归一化有多种选择,我想知道是否使用另一种归一化选择进行分析-例如:x-mean(x)/sd(x)-会给我相同的结果(至少在一般情况下)

或者我是否完全错误地考虑了我的缩放数据,我应该在我的雷达图中使用我的未缩放数据?

1个回答

是的。特征缩放可以完全改变聚类结果。

人们通常将数据缩放到 [0:1] 或标准差为 1。

然而,这不过是一种启发式方法。

在许多情况下,缩放的需要只不过是一种症状,由不适当的方法数据引起你不能仅仅通过一些简单的缩放来解决这个问题,但这只是一种经常有效的技巧。

对于具有统计意义的结果,所有轴都应按比例缩放以反映属性相关性,以便 1 个单位的差异在每个属性中具有相同的重要性。