LDA(潜在狄利克雷分配)如何将主题分布分配给新文档?

机器算法验证 自然语言 主题模型 潜在狄利克雷分配 非负矩阵分解
2022-03-30 15:42:45

我是主题建模的新手,并且阅读了有关 LDA 和 NMF(非负矩阵分解)的信息。我了解培训过程的工作。假设我有 100 个文档,我想为这些包含 10 个主题的文档训练 LDA。但是,我真的不明白这个模型如何将主题分配给看不见的文档?

我用的是 Gensim。训练后,我有一个 LDA 训练模型和一个最常用词的字典。假设我有一个看不见的新文档,其中包含以下文本:

This is just a test text about topic modeling and LDA. 

有人可以根据算法步骤逐步解释如何将主题分布分配给这个新文档吗?NMF 方法也是如此。

1个回答

您实际上应该做的是对新文档集(旧文档和新文档一起)进行推理(训练)。如@SheldonCooper 在使用潜在狄利克雷分配的主题预测中所描述的,可以很好地估计这一点的捷径是将吉布斯采样仅应用于新文档,同时使用训练期间获得的数据不变