通过相似词和短语对文档进行聚类的算法

机器算法验证 聚类 分类 数据集 算法 文本挖掘
2022-03-22 11:50:12

我正在做一个项目,我试图获取一对文档并在它们之间查找和分组(聚类)相似的单词和短语。

哪种算法可以解决此类问题?我知道这是一个非常平凡且可能是主观的问题,但我是集群的新手,我仍在努力解决词汇问题。

您的帮助将不胜感激。

2个回答

马上,您可能想查看各种字符串距离。我唯一熟悉的是 Levenshtein 距离,它非常初级。您可以将其应用于句子或短语。

您可能还想了解一些自然语言处理技术,例如在对数据运行任何聚类算法之前对数据进行词干化和标记化。如果你喜欢 Python,我强烈推荐nltk,它有很多用于自然语言处理的包。它甚至可能为您提供聚类或距离算法。一个快速的谷歌给了我这个包,但我从来没有使用过它。

编辑:经过反思,我可能误解了您的问题-您是在聚类文档还是单词/短语?

对于几乎任何可以处理此类数据的聚类算法,您都需要首先定义距离或相似度函数。因此,您可能需要浏览有关适合您任务的距离函数的文献。

例如,TF-IDF 归一化向量表示上的余弦距离。