我想将潜在 Dirichlet 分配用于一个项目,并且我正在将 Python 与 gensim 库一起使用。找到主题后,我想使用诸如 k-means 之类的算法对文档进行聚类(理想情况下,我想使用一个好的算法来重叠聚类,因此欢迎任何建议)。我设法获得了主题,但它们的形式是:
0.041*Minister + 0.041*Key + 0.041*moments + 0.041*争议 + 0.041*Prime
为了应用聚类算法并在我错了时纠正我,我相信我应该找到一种使用 tfidf 或 word2vec 将每个单词表示为数字的方法。
您对我如何从例如列表中“剥离”文本信息有任何想法,以便这样做,然后将它们放回去以进行适当的乘法?
例如,如果部长这个词的 tfidf 权重为 0.042 等等,对于同一主题中的任何其他词,我看到的方式我应该计算如下:
0.041*0.42 + ... + 0.041*tfidf(Prime) 并获得稍后将用于对结果进行聚类的结果。
感谢您的时间。