我尝试了主题建模(LDA、NMF)来从数据中提取见解。
我现在很好奇,是否有其他方法可以通过相同或相似的上下文对文档进行无监督学习?
(旁白)是否有任何方法可以显示主题或主题中文档的相似性?
我尝试了主题建模(LDA、NMF)来从数据中提取见解。
我现在很好奇,是否有其他方法可以通过相同或相似的上下文对文档进行无监督学习?
(旁白)是否有任何方法可以显示主题或主题中文档的相似性?
您可以使用 doc2vec 创建每个文档的矢量表示。一旦你有了所有的向量表示,你就可以使用标准的无监督聚类技术,如 k-means、层次聚类或 K-SOM。
您创建的 doc2vec 模型将能够计算两个文档之间的余弦相似度,还可以找到与给定文档最相似的 n 个文档,并为每个文档提供相似度分数。
生成 TF-IDF 分数并将它们传递给 K-Means 聚类,以将相似的文档组合在一起。