需要为 LDA 提供预定义数量的潜在主题。假设我有一个文本语料库,我假设其中有 10 个主要主题,全部由 10 个次要子主题组成。我的目标是能够定义文档之间的接近度。
1)您如何估计实践中的主题数量?凭经验?使用分层狄利克雷过程 (HDP) 等另一种方法?
2)你建立几个模型?对于主要和次要主题?有没有办法捕捉主题的层次结构?
需要为 LDA 提供预定义数量的潜在主题。假设我有一个文本语料库,我假设其中有 10 个主要主题,全部由 10 个次要子主题组成。我的目标是能够定义文档之间的接近度。
1)您如何估计实践中的主题数量?凭经验?使用分层狄利克雷过程 (HDP) 等另一种方法?
2)你建立几个模型?对于主要和次要主题?有没有办法捕捉主题的层次结构?
有许多方法可以执行这种优化——即选择为 LDA 提供的最佳主题数量,并且已经撰写了许多关于该主题的论文。
有几个值得注意的,每个都定义了评估 LDA 模型的主题质量的指标:
幸运的是,如果您使用 R,这些指标已经在一个名为ldatuning的便捷包中为您编译,它提供了一组实用程序和指标来帮助调整 LDA 模型中正确数量的主题。
或者,如果您使用 Python,gensim包可以为您提供许多实用程序来帮助您。例如,该包实现了一个他们称之为“主题连贯性”的指标,他们声称该指标大致对应于人类在许多其他调优实用程序中主题区分的清晰度。