我有一个包含 29 个类的大型标记数据集。是否可以在此数据集中使用聚类算法(如 k-means),或者由于聚类算法是无监督的,所以不可能?
对标记的数据集进行聚类
数据挖掘
机器学习
分类
聚类
k-均值
无监督学习
2022-02-11 23:24:49
1个回答
你可以做很多事情:
- 忘记标签:只使用不是标签的特征,并使用 k-means 算法(或其他算法)沿着这些特征聚类。
- 忘记特征:这是最愚蠢的聚类方式。根据它们拥有的标签将数据聚类到 29 个集群中。如果您想要更少的集群,您可以计算类的质心并使用它们来加入不同标签的集群。
- 使用一切:创建一个分类变量,引用每个示例所属的类。然后,使用这个新变量和所有特征执行经典的聚类算法。
进行的方式取决于您是否要使用标签,以及您希望它们具有多大的重要性。
其它你可能感兴趣的问题