为主题建模 (LDA) 计算最佳主题数
数据挖掘
nlp
数据科学模型
主题模型
低密度脂蛋白
2021-10-15 12:37:16
1个回答
LDA 是一种概率模型,其结果取决于数据类型和问题陈述。没有什么比连贯性分数的有效范围更好的了,但超过 0.4 是有意义的。通过固定主题的数量,您可以通过调整 alpha 和 beta 等超参数进行实验,这将为您提供更好的主题分布。
alpha 控制任何给定文档的主题混合。把它关掉,文档可能会有更少的主题混合。打开它,文档可能会有更多的混合主题。
Beta 控制每个主题的单词分布。关掉它,主题可能会少一些字。打开它,主题可能会有更多的话。
lda 的主要目的是找到语料库的隐藏含义并找到最能描述该语料库的单词。
要了解有关连贯性分数的更多信息,您可以参考此