我的语料库包含几篇文章,其中包含几家公司的文本,即每篇文章都包含关于几家公司的信息。
我想根据我可以指定的几个公司名称对信息进行聚类。聚类应该基于一些相似度矩阵,例如欧几里得或余弦相似度。
根据我可以指定的公司名称使用哪种算法以及使用哪种相似性方法?
我的语料库包含几篇文章,其中包含几家公司的文本,即每篇文章都包含关于几家公司的信息。
我想根据我可以指定的几个公司名称对信息进行聚类。聚类应该基于一些相似度矩阵,例如欧几里得或余弦相似度。
根据我可以指定的公司名称使用哪种算法以及使用哪种相似性方法?
一种选择是Anchored CorEx,它使用锚词执行聚类。对于您的问题,锚词将是公司名称。