我正在做一个项目,我试图获取一对文档并在它们之间查找和分组(聚类)相似的单词和短语。
哪种算法可以解决此类问题?我知道这是一个非常平凡且可能是主观的问题,但我是集群的新手,我仍在努力解决词汇问题。
您的帮助将不胜感激。
我正在做一个项目,我试图获取一对文档并在它们之间查找和分组(聚类)相似的单词和短语。
哪种算法可以解决此类问题?我知道这是一个非常平凡且可能是主观的问题,但我是集群的新手,我仍在努力解决词汇问题。
您的帮助将不胜感激。
对于几乎任何可以处理此类数据的聚类算法,您都需要首先定义距离或相似度函数。因此,您可能需要浏览有关适合您任务的距离函数的文献。
例如,TF-IDF 归一化向量表示上的余弦距离。