像 LDA 这样的流行主题模型通常将倾向于共同出现的单词聚集到同一个主题(集群)中。
此类主题模型与其他简单的基于共现的聚类方法(如 PMI)之间的主要区别是什么?(PMI 代表 Pointwise Mutual Information,它用于识别与给定单词同时出现的单词。)
像 LDA 这样的流行主题模型通常将倾向于共同出现的单词聚集到同一个主题(集群)中。
此类主题模型与其他简单的基于共现的聚类方法(如 PMI)之间的主要区别是什么?(PMI 代表 Pointwise Mutual Information,它用于识别与给定单词同时出现的单词。)
最近,大量讨论如何从书面文本中提取信息的文献越来越多。因此,我将仅描述四个里程碑/流行模型及其优点/缺点,从而突出(部分)主要差异(或至少我认为主要/最重要的差异)。
您提到了“最简单”的方法,即通过将文档与预定义的术语查询(如在 PMI 中)进行匹配来对文档进行聚类。然而,由于单个术语的多义性(多个含义)和同义性(具有相似含义的多个单词),这些词汇匹配方法可能不准确。
作为一种补救措施,潜在语义索引 ( LSI ) 试图通过奇异值分解将术语和文档映射到潜在语义空间来克服这一问题。LSI 结果是比单个术语更可靠的含义指标。然而,LSI 的一个缺点是它缺乏坚实的概率基础。
概率 LSI ( pLSI )的发明部分解决了这个问题。在 pLSI 模型中,文档中的每个单词都是从通过多项随机变量指定的混合模型中提取的(这也允许高阶共现,如 @sviatoslav hong 提到的)。这是概率文本建模向前迈出的重要一步,但在文档级别没有提供概率结构的意义上是不完整的。
潜在狄利克雷分配 ( LDA ) 缓解了这一问题,并且是第一个用于文本聚类的完全概率模型。布莱等人。(2003) 表明 pLSI 是在均匀狄利克雷先验条件下的最大后验估计 LDA 模型。
请注意,上述模型(LSI、pLSI、LDA)的共同点是它们基于“词袋”假设——即在文档中,单词是可交换的,即文档中的单词顺序可以被忽视。这种可交换性假设为 LDA 提供了优于其他方法的进一步理由:假设不仅文档中的单词是可交换的,而且文档,即语料库中的文档顺序可以忽略,De Finetti 定理指出任何一组可交换的随机变量都具有混合分布的表示。因此,如果假设文档和文档中的单词具有可交换性,则需要两者的混合模型。这正是 LDA 通常可以实现的,但 PMI 或 LSI 却没有(甚至 pLSI 也没有 LDA 漂亮)。
LDA 可以捕获术语的高阶共现(由于假设每个主题都是术语的多项分布),而仅通过计算术语之间的 PMI 是不可能的。
我可能迟到了 3 年,但我想就“高阶共现”的例子跟进你的问题。
基本上,如果术语 t1 与术语 t2 与术语 t3 共现,则术语 t1 是与术语 t3 的二阶共现。如果你愿意,你可以去更高的顺序,但最后你控制两个词应该有多相似。