我有一组字符串,每个字符串都有与之相关的一些分类信息。不过,分类信息并不总是很好,所以我需要根据文本内容和类别对消息进行聚类。做这个的最好方式是什么?
如何对混合了文本和分类数据的数据进行聚类?
数据挖掘
聚类
文本挖掘
k-均值
分类数据
2021-09-18 04:54:38
1个回答
首先,一般来说,没有最好的方法来完成这项任务。这将需要一些创造力和解决问题的能力
这是一个潜在的想法。聚类涉及某种相似性度量。您可以计算文本文档之间的相似度(例如,在 TF-IDF 等术语加权之后,您可以使用余弦相似度)。您还可以使用分类数据计算对象之间的相似性。匹配系数是很好的选择。例如,http ://en.wikipedia.org/wiki/Simple_matching_coefficient 几乎是最基本的,但是您可以通过简单的 google 搜索找到许多其他分类数据的相似性度量。
因此,如果我有一个基于文本给出相似度的相似度矩阵A ,以及一个基于分类属性给出相似度的相似度矩阵B ,那么我可以采用A和B的某种加权组合并将其用作整体相似度聚类矩阵。也许凸组合会很好地工作,并为您提供一些灵活性来选择您想要更大权重的相似性度量(因为听起来分类信息可能没有那么好):
选择一些参数并计算整体相似度矩阵S为
然后,您可以使用任意数量的使用相似性信息的聚类算法。例如,-means 在作为输入的相似性矩阵上应该可以正常工作。任何类型的图/谱聚类算法也非常适合这种类型的输入。
其它你可能感兴趣的问题