我的目标是为大量文档(20M 或 30M)实现主题模型。让我们假设主题的数量固定为 50。
我认为针对上述问题实施 LDA 并不困难。但是,我还没有找到 NMF 模型的答案。我读过为大量文档实现 NMF 模型并不容易。
真的不可能为我的问题实现 NMF 模型吗?
我的目标是为大量文档(20M 或 30M)实现主题模型。让我们假设主题的数量固定为 50。
我认为针对上述问题实施 LDA 并不困难。但是,我还没有找到 NMF 模型的答案。我读过为大量文档实现 NMF 模型并不容易。
真的不可能为我的问题实现 NMF 模型吗?
关于为这个问题实现 LDA 的注意事项:有针对大量文档的精心设计的推理算法。具体来说,您应该查看“在线 LDA”,它可以自适应地训练主题,一次查看小块文档。
论文:http ://www.cs.princeton.edu/~blei/papers/HoffmanBleiBach2010b.pdf
马特霍夫曼有可用的python代码:http ://www.cs.princeton.edu/~blei/topicmodeling.html