主题建模之外还有什么?

数据挖掘 nlp 主题模型 低密度脂蛋白
2022-02-15 11:54:52

我尝试了主题建模(LDA、NMF)来从数据中提取见解。

我现在很好奇,是否有其他方法可以通过相同或相似的上下文对文档进行无监督学习?

(旁白)是否有任何方法可以显示主题或主题中文档的相似性?

2个回答

您可以使用 doc2vec 创建每个文档的矢量表示。一旦你有了所有的向量表示,你就可以使用标准的无监督聚类技术,如 k-means、层次聚类或 K-SOM。

您创建的 doc2vec 模型将能够计算两个文档之间的余弦相似度,还可以找到与给定文档最相似的 n 个文档,并为每个文档提供相似度分数。

生成 TF-IDF 分数并将它们传递给 K-Means 聚类,以将相似的文档组合在一起。