在聚类分析中为变量分配权重

机器算法验证 聚类 状态
2022-03-25 22:38:45

我想在我的聚类分析中为变量分配不同的权重,但我的程序(Stata)似乎没有这个选项,所以我需要手动完成。

想象 4 个变量 A、B、C、D。这些变量的权重应该是

w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%

我想知道以下两种方法中的一种是否真的可以解决问题:

  1. 首先,我标准化所有变量(例如通过它们的范围)。然后我将每个标准化变量乘以它们的权重。然后进行聚类分析。
  2. 我将所有变量乘以它们的权重,然后将它们标准化。然后进行聚类分析。

或者这两个想法都是胡说八道?

[编辑] 我希望使用的聚类算法(我尝试了 3 种不同)是 k-means、加权平均链接和平均链接。我计划使用加权平均链接来确定大量集群,然后将其插入 k-means。

1个回答

为变量分配权重的一种方法是更改​​其比例。该技巧适用于您提到的聚类算法,即。k-means,加权平均链接和平均链接。

考夫曼、伦纳德和彼得 J.卢梭。在数据中寻找组:聚类分析简介。” (2005) - 第 11 页:

测量单位的选择会产生变量的相对权重。以较小的单位表示变量将导致该变量的范围更大,这将对最终的结构产生很大的影响。另一方面,通过标准化尝试赋予所有变量同等权重,以期实现客观性。因此,它可以由没有先验知识的从业者使用。然而,很可能某些变量在特定应用中本质上比其他变量更重要,然后权重的分配应该基于主题知识(例如,参见 Abrahamowicz,1985)。

另一方面,有人尝试设计独立于变量规模的聚类技术(弗里德曼和鲁宾,1967)。Hardy 和 Rasson (1982) 的建议是寻找一个最小化集群凸包总体积的分区。原则上,这种方法对于数据的线性变换是不变的,但不幸的是,不存在用于其实现的算法(除了限于二维的近似值)。因此,标准化的困境在目前看来是不可避免的,本书所描述的程序将选择权留给用户

Abrahamowicz, M. (1985), The use of non-numerical a pnon information for measure dissimilarities, 在心理测量学会和分类学会第四次欧洲会议上发表的论文,7 月 2-5 日,剑桥(英国)。

Friedman, HP 和 Rubin, J. (1967),关于分组数据的一些不变标准。Ĵ。阿米尔。统计学家。ASSOC6.,2, 1159-1178。

Hardy, A. 和 Rasson, JP (1982), Une nouvelle approche des problemes de classification automatique, Statist。肛门。唐尼斯,7 岁,41-56 岁。