使用 doc2vec 对文本文档进行聚类

数据挖掘 nlp gensim
2022-02-20 08:27:46

我是单词/段落嵌入的新手,我仍在努力理解它。我的问题可能是微不足道的。所以请多多包涵。

我有一组简短的文档(每个文档都包含少量句子和大量噪音)。我想根据最相似的文档将这些文档聚集到一个集群中(软集群现在很好)。现在有几种可用的技术(和著名的教程,如 scikit-learn),但我想看看我是否可以成功使用 doc2vec(gensim 实现)。

在这个程度上,我已经在集合上运行了 doc2vec,并且每个文档都有“段落向量”。显然,我可以使用 K-Means 之类的方法对这些向量进行聚类。我只是想知道这是正确的方法还是需要其他东西。

谢谢

0个回答
没有发现任何回复~