主题的稀疏性是潜在狄利克雷分配(LDA)工作的必要条件吗

机器算法验证 狄利克雷分布 主题模型 潜在狄利克雷分配
2022-03-01 04:53:21

我一直在玩潜在 Dirichlet 分配 (LDA) 模型的超参数,并且想知道主题先验的稀疏性如何在推理中发挥作用。

我没有在真实数据上进行这些实验,而是在模拟数据上进行。我从固定的十五个单词开始(W=15)并生成了三个虚拟主题(K=3). 然后使用LDA模型的生成过程,生成单词(N=100)和文件(D=10).

LDA 图形模型

对于推理,我使用 Griffiths 等人在 2004 年的折叠 Gibbs 采样器。我保留了超参数α相同,但使用了一系列值η,这是主题先验的狄利克雷超参数。以下是一些结果:

稀疏主题与非稀疏主题的主题建模结果

我知道这些数字很忙,所以让我解释一下它们是什么。两个图中的第一列(蓝色)是指用于生成文档的“真实”主题。在图 1 中,主题被选择为稀疏的,而在图 2 中它们不是稀疏的。蓝色列之后的每个红色列都是推断的主题,用于以下值η=[0.1,0.3,0.5,0.7,0.9,1,3,5,7,9]

以下是我对数字的观察:

  • 当底层主题稀疏时,只要先验选择稀疏,LDA 模型就可以很好地推断主题,即η<1.
  • 当底层主题不稀疏时,对于η<1,该模型很好地推断出概率高的词,但概率较小的词在主题中的表现不是很好,即使是非稀疏先验,即η>1.

我认为我认为关于主题的稀疏假设是一个公平的假设,特别是对于有很多单词的大型文本语料库。但是如果底层主题不是那么稀疏,LDA模型会不会不能正确推断主题?


编辑1:

我改变了这个数字,现在使用真实主题和推断主题之间的 KL-Divergence,根据最匹配的真实主题排列推断的主题。欢迎任何有助于改进我的问题的编辑建议。

0个回答
没有发现任何回复~