检测适当数量主题的不同方法

数据挖掘 机器学习 r 主题模型
2022-02-23 10:04:32

我在 R 中实现了 LDA 主题建模。

一个重要参数是主题数量的选择

以下哪种方式最适合:

1. mallet
2. stm
3. or this way https://cran.r-project.org/web/packages/ldatuning/vignettes/topics.html
1个回答

没有“最合适”的方法,但可能有一种更适合您的数据的方法。知道这一点的唯一方法是尝试所有这些。

如果选择主题的数量是一个问题,您可能有兴趣使用 LDA 的非参数扩展进行主题建模,这不需要您指定主题的数量:这称为Hierarchical Dirichlet Processes,请参阅实例本介绍