机器算法验证 - 在聚类分析中为变量分配权重 - 吾爱随笔录

在聚类分析中为变量分配权重

机器算法验证聚类状态

2022-03-25 22:38:45

我想在我的聚类分析中为变量分配不同的权重，但我的程序（Stata）似乎没有这个选项，所以我需要手动完成。

想象 4 个变量 A、B、C、D。这些变量的权重应该是

w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%

我想知道以下两种方法中的一种是否真的可以解决问题：

首先，我标准化所有变量（例如通过它们的范围）。然后我将每个标准化变量乘以它们的权重。然后进行聚类分析。
我将所有变量乘以它们的权重，然后将它们标准化。然后进行聚类分析。

或者这两个想法都是胡说八道？

[编辑] 我希望使用的聚类算法（我尝试了 3 种不同）是 k-means、加权平均链接和平均链接。我计划使用加权平均链接来确定大量集群，然后将其插入 k-means。

1个回答

为变量分配权重的一种方法是更改其比例。该技巧适用于您提到的聚类算法，即。k-means，加权平均链接和平均链接。

考夫曼、伦纳德和彼得 J.卢梭。“在数据中寻找组：聚类分析简介。” (2005) - 第 11 页：

测量单位的选择会产生变量的相对权重。以较小的单位表示变量将导致该变量的范围更大，这将对最终的结构产生很大的影响。另一方面，通过标准化尝试赋予所有变量同等权重，以期实现客观性。因此，它可以由没有先验知识的从业者使用。然而，很可能某些变量在特定应用中本质上比其他变量更重要，然后权重的分配应该基于主题知识（例如，参见 Abrahamowicz，1985）。

另一方面，有人尝试设计独立于变量规模的聚类技术（弗里德曼和鲁宾，1967）。Hardy 和 Rasson (1982) 的建议是寻找一个最小化集群凸包总体积的分区。原则上，这种方法对于数据的线性变换是不变的，但不幸的是，不存在用于其实现的算法（除了限于二维的近似值）。因此，标准化的困境在目前看来是不可避免的，本书所描述的程序将选择权留给用户

Abrahamowicz, M. (1985), The use of non-numerical a pnon information for measure dissimilarities, 在心理测量学会和分类学会第四次欧洲会议上发表的论文，7 月 2-5 日，剑桥（英国）。

Friedman, HP 和 Rubin, J. (1967)，关于分组数据的一些不变标准。Ĵ。阿米尔。统计学家。ASSOC6.,2, 1159-1178。

Hardy, A. 和 Rasson, JP (1982), Une nouvelle approche des problemes de classification automatique, Statist。肛门。唐尼斯，7 岁，41-56 岁。

其它你可能感兴趣的问题

上一篇反向转换置信区间下一篇弗里德曼检验后如何正确应用 Nemenyi 事后检验