主题建模和聚类有什么区别?

数据挖掘 聚类 无监督学习 主题模型
2021-09-17 05:34:10

我知道主题建模和聚类是相关的,但不是相似的技术。谁能建议主要区别是什么?

1个回答

主题建模方法的目的是发现假定已生成语料库文档的潜在主题(主题)。主题建模方法建立在分布假设之上,表明相似的词出现在相似的上下文中。为此,他们假设了一个生成过程(一系列步骤),这是一组描述文档如何生成的假设。给定生成过程的假设,进行推理,从而学习模型的潜在变量。例如,对于潜在狄利克雷分配,这是每个主题的文档分布和每个单词的文档分布。从这个意义上说,一个文档可以用它的每个主题分布来表示(doc1= 0.3×运动+0.7×电影院)。这后面可以看成是一种软聚类的方法,即doc1属于 30% 的集群Sports和 70% 的Cinema但主题模型不仅仅是聚类方法,还可以用于理解、探索和可视化集合。

另一方面,聚类方法旨在数据划分为连贯的组。当然,什么是连贯的以及如何执行分区在各种聚类算法之间是不同的。数据实例之间的距离是聚类方法的核心,为此,实例可以用多种方式表示:对于文档,这可以是词频 (tf)、tf-idf,甚至是通过主题学习的每个文档的主题分布楷模。