为主题建模 (LDA) 计算最佳主题数

数据挖掘 nlp 数据科学模型 主题模型 低密度脂蛋白
2021-10-15 12:37:16

我将通过 LDA 进行主题建模。我运行我的命令来查看最佳主题数量。输出如下:它与我见过的任何其他地块都有点不同。你觉得可以吗?或者最好使用其他算法而不是LDA。值得一提的是,当我运行命令来可视化 10 个主题的主题关键字时,该图显示了 2 个主要主题,而其他主题几乎有很强的重叠。是否有任何有效的一致性范围?

非常感谢您分享您的评论,因为我是主题建模的初学者。

在此处输入图像描述

1个回答

LDA 是一种概率模型,其结果取决于数据类型和问题陈述。没有什么比连贯性分数的有效范围更好的了,但超过 0.4 是有意义的。通过固定主题的数量,您可以通过调整 alpha 和 beta 等超参数进行实验,这将为您提供更好的主题分布。

alpha 控制任何给定文档的主题混合。把它关掉,文档可能会有更少的主题混合。打开它,文档可能会有更多的混合主题。

Beta 控制每个主题的单词分布。关掉它,主题可能会少一些字。打开它,主题可能会有更多的话。

lda 的主要目的是找到语料库的隐藏含义并找到最能描述该语料库的单词。

要了解有关连贯性分数的更多信息,您可以参考