为变量分配权重的一种方法是更改其比例。该技巧适用于您提到的聚类算法,即。k-means,加权平均链接和平均链接。
考夫曼、伦纳德和彼得 J.卢梭。“在数据中寻找组:聚类分析简介。” (2005) - 第 11 页:
测量单位的选择会产生变量的相对权重。以较小的单位表示变量将导致该变量的范围更大,这将对最终的结构产生很大的影响。另一方面,通过标准化尝试赋予所有变量同等权重,以期实现客观性。因此,它可以由没有先验知识的从业者使用。然而,很可能某些变量在特定应用中本质上比其他变量更重要,然后权重的分配应该基于主题知识(例如,参见 Abrahamowicz,1985)。
另一方面,有人尝试设计独立于变量规模的聚类技术(弗里德曼和鲁宾,1967)。Hardy 和 Rasson (1982) 的建议是寻找一个最小化集群凸包总体积的分区。原则上,这种方法对于数据的线性变换是不变的,但不幸的是,不存在用于其实现的算法(除了限于二维的近似值)。因此,标准化的困境在目前看来是不可避免的,本书所描述的程序将选择权留给用户
Abrahamowicz, M. (1985), The use of non-numerical a pnon information for measure dissimilarities, 在心理测量学会和分类学会第四次欧洲会议上发表的论文,7 月 2-5 日,剑桥(英国)。
Friedman, HP 和 Rubin, J. (1967),关于分组数据的一些不变标准。Ĵ。阿米尔。统计学家。ASSOC6.,2, 1159-1178。
Hardy, A. 和 Rasson, JP (1982), Une nouvelle approche des problemes de classification automatique, Statist。肛门。唐尼斯,7 岁,41-56 岁。