我正在使用 KMeans 根据几列获取多个用户的个人资料(我正在使用 RStudio)。
为了分析我的集群,我决定实现一个雷达图,所以我决定使用特征缩放:x-min(x)/diff(range(x)),让我的值在 [0,1] 中(以便很好地了解每个集群的数据)。但是,由于归一化有多种选择,我想知道是否使用另一种归一化选择进行分析-例如:x-mean(x)/sd(x)-会给我相同的结果(至少在一般情况下)
或者我是否完全错误地考虑了我的缩放数据,我应该在我的雷达图中使用我的未缩放数据?
我正在使用 KMeans 根据几列获取多个用户的个人资料(我正在使用 RStudio)。
为了分析我的集群,我决定实现一个雷达图,所以我决定使用特征缩放:x-min(x)/diff(range(x)),让我的值在 [0,1] 中(以便很好地了解每个集群的数据)。但是,由于归一化有多种选择,我想知道是否使用另一种归一化选择进行分析-例如:x-mean(x)/sd(x)-会给我相同的结果(至少在一般情况下)
或者我是否完全错误地考虑了我的缩放数据,我应该在我的雷达图中使用我的未缩放数据?
是的。特征缩放可以完全改变聚类结果。
人们通常将数据缩放到 [0:1] 或标准差为 1。
然而,这不过是一种启发式方法。
在许多情况下,缩放的需要只不过是一种症状,由不适当的方法数据引起。你不能仅仅通过一些简单的缩放来解决这个问题,但这只是一种经常有效的技巧。
对于具有统计意义的结果,所有轴都应按比例缩放以反映属性相关性,以便 1 个单位的差异在每个属性中具有相同的重要性。