在生成的集群中查找主导属性

数据挖掘 机器学习 数据挖掘 聚类 k-均值 无监督学习
2022-03-04 04:13:30

我有一个客户数据集,其中每个客户都表示为某个特征向量,并且我正在将 K-means 算法应用于该数据集。在这些特征的基础上,我可以对这些集群进行抽象和命名。但我想在这些集群上绘制人口统计特征,以验证我的集群是否有意义。

例如,现在我有 100 个客户的原始数据集,其中 90 个女性和 10 个男性。

我想找到 4 个集群,每个集群的大小为 25。在集群编号:1,2 和 3 中,我有所有男性,没有女性。在第 4 组中,我有 15 名男性和 10 名女性。

如何将性别映射到这些集群以将集群描述为男性或女性主导?

我在这里有意义吗?

1个回答

一种方法是:

  1. 集群数据。
  2. 在每个集群中,计算男性和女性的数量。
  3. 用大多数性别标记每个集群。

对 iterest 的每个人口统计特征重复步骤 2-3。