对标记的数据集进行聚类

数据挖掘 机器学习 分类 聚类 k-均值 无监督学习
2022-02-11 23:24:49

我有一个包含 29 个类的大型标记数据集。是否可以在此数据集中使用聚类算法(如 k-means),或者由于聚类算法是无监督的,所以不可能?

1个回答

你可以做很多事情:

  • 忘记标签:只使用不是标签的特征,并使用 k-means 算法(或其他算法)沿着这些特征聚类。
  • 忘记特征:这是最愚蠢的聚类方式。根据它们拥有的标签将数据聚类到 29 个集群中。如果您想要更少的集群,您可以计算类的质心并使用它们来加入不同标签的集群。
  • 使用一切:创建一个分类变量,引用每个示例所属的类。然后,使用这个新变量和所有特征执行经典的聚类算法。

进行的方式取决于您是否要使用标签,以及您希望它们具有多大的重要性。