如何使用相似度度量基于包含多个公司名称的帖子中的公司名称对句子进行聚类。

数据挖掘 Python nlp 文本挖掘
2022-02-14 07:00:47

我的语料库包含几篇文章,其中包含几家公司的文本,即每篇文章都包含关于几家公司的信息。

我想根据我可以指定的几个公司名称对信息进行聚类。聚类应该基于一些相似度矩阵,例如欧几里得或余弦相似度。

根据我可以指定的公司名称使用哪种算法以及使用哪种相似性方法?

1个回答

一种选择是Anchored CorEx,它使用锚词执行聚类。对于您的问题,锚词将是公司名称。