您如何在实践中使用潜在狄利克雷分配

数据挖掘 狄利克雷
2021-10-03 05:23:52

需要为 LDA 提供预定义数量的潜在主题。假设我有一个文本语料库,我假设其中有 10 个主要主题,全部由 10 个次要子主题组成。我的目标是能够定义文档之间的接近度。

1)您如何估计实践中的主题数量?凭经验?使用分层狄利克雷过程 (HDP) 等另一种方法?

2)你建立几个模型?对于主要和次要主题?有没有办法捕捉主题的层次结构?

1个回答

有许多方法可以执行这种优化——即选择为 LDA 提供的最佳主题数量,并且已经撰写了许多关于该主题的论文。

有几个值得注意的,每个都定义了评估 LDA 模型的主题质量的指标:

  • Rajkumar Arun、V. Suresh、CE Veni Madhavan 和 MN Narasimha Murthy。2010.关于通过潜在狄利克雷分配找到主题的自然数:一些观察。在知识发现和数据挖掘的进展中,Mohammed J. Zaki、Jeffrey Xu Yu、Balaraman Ravindran 和 Vikram Pudi(编辑)。施普林格柏林海德堡,391–402。http://doi.org/10.1007/978-3-642-13657-3_43
  • 曹娟、夏田、李锦涛、张永东、唐生。2009.一种基​​于密度的自适应 lDA 模型选择方法。神经计算 — 第 16 届欧洲人工神经网络研讨会 2008 72, 7-9: 1775-1781。http://doi.org/10.1016/j.neucom.2008.06.011
  • 罗曼·德沃、埃里克·桑胡安和帕特里斯·贝洛特。2014. 用于临时信息检索的准确有效的潜在概念建模。文件编号 17, 1: 61–84。http://doi.org/10.3166/dn.17.1.61-84
  • Thomas L. Griffiths 和 Mark Steyvers。2004. 寻找科学主题。美国国家科学院院刊 101,增刊 1:5228–5235。http://doi.org/10.1073/pnas.0307752101

幸运的是,如果您使用 R,这些指标已经在一个名为ldatuning的便捷包中为您编译,它提供了一组实用程序和指标来帮助调整 LDA 模型中正确数量的主题。

或者,如果您使用 Python,gensim包可以为您提供许多实用程序来帮助您。例如,该包实现了一个他们称之为“主题连贯性”的指标,他们声称该指标大致对应于人类在许多其他调优实用程序中主题区分的清晰度。