主题建模、LDA 和 NMF

机器算法验证 造型 矩阵 主题模型
2022-03-31 08:50:11

我的目标是为大量文档(20M 或 30M)实现主题模型。让我们假设主题的数量固定为 50。

我认为针对上述问题实施 LDA 并不困难。但是,我还没有找到 NMF 模型的答案。我读过为大量文档实现 NMF 模型并不容易。

真的不可能为我的问题实现 NMF 模型吗?

1个回答

关于为这个问题实现 LDA 的注意事项:有针对大量文档的精心设计的推理算法。具体来说,您应该查看“在线 LDA”,它可以自适应地训练主题,一次查看小块文档。

论文:http ://www.cs.princeton.edu/~blei/papers/HoffmanBleiBach2010b.pdf

马特霍夫曼有可用的python代码:http ://www.cs.princeton.edu/~blei/topicmodeling.html