数据挖掘 - 使用 doc2vec 对文本文档进行聚类 - 吾爱随笔录

我是单词/段落嵌入的新手，我仍在努力理解它。我的问题可能是微不足道的。所以请多多包涵。

我有一组简短的文档（每个文档都包含少量句子和大量噪音）。我想根据最相似的文档将这些文档聚集到一个集群中（软集群现在很好）。现在有几种可用的技术（和著名的教程，如 scikit-learn），但我想看看我是否可以成功使用 doc2vec（gensim 实现）。

在这个程度上，我已经在集合上运行了 doc2vec，并且每个文档都有“段落向量”。显然，我可以使用 K-Means 之类的方法对这些向量进行聚类。我只是想知道这是正确的方法还是需要其他东西。

谢谢