我是单词/段落嵌入的新手,我仍在努力理解它。我的问题可能是微不足道的。所以请多多包涵。
我有一组简短的文档(每个文档都包含少量句子和大量噪音)。我想根据最相似的文档将这些文档聚集到一个集群中(软集群现在很好)。现在有几种可用的技术(和著名的教程,如 scikit-learn),但我想看看我是否可以成功使用 doc2vec(gensim 实现)。
在这个程度上,我已经在集合上运行了 doc2vec,并且每个文档都有“段落向量”。显然,我可以使用 K-Means 之类的方法对这些向量进行聚类。我只是想知道这是正确的方法还是需要其他东西。
谢谢