我是主题建模的新手,并且阅读了有关 LDA 和 NMF(非负矩阵分解)的信息。我了解培训过程的工作。假设我有 100 个文档,我想为这些包含 10 个主题的文档训练 LDA。但是,我真的不明白这个模型如何将主题分配给看不见的文档?
我用的是 Gensim。训练后,我有一个 LDA 训练模型和一个最常用词的字典。假设我有一个看不见的新文档,其中包含以下文本:
This is just a test text about topic modeling and LDA.
有人可以根据算法步骤逐步解释如何将主题分布分配给这个新文档吗?NMF 方法也是如此。