如何为使用 LDA 创建的主题命名?

数据挖掘 机器学习 数据挖掘 nlp 文本挖掘 主题模型
2021-09-16 18:27:42

我使用 Mahout 主题建模将 800,000 个文档分为 500 个类别。

我不想使用每个主题的前 5/10 个词来表示主题,而是想使用任何现有算法推断组的通用名称。目前,我使用以下算法来得出主题的名称:

对于每个主题

  • 获取属于该主题的所有文档(使用文档-主题分布输出)
  • 运行 python nltk 以获取名词短语
  • 从输出创建 TF 文件
  • 主题名称是短语(最多 5 个单词)

请提出一种方法来获得更相关的主题名称。

4个回答

我可以推荐几篇关于这个主题的论文:

  • 主题模型的自动标注
  • 自动标记分层主题
  • 表示探索数字图书馆的主题标签

您可以通过查看他们的引文找到更多信息。

如果您不想在该任务中深入研究 NLP,我建议您从文档中生成一组最常见的 NGram(长度为 2-5),并使用 TF*IDF 度量为每个类别找到最不同的 ngram作为特定 ngram 的意义重要性(按字数标准化度量),并选择那些在特定类别中使用但在其他类别中不(或很少)使用的 Ngram。

您可以尝试使用词向量来平均一个主题中的前 N ​​个词,然后使用余弦相似度来找到语料库中最接近的词?

只是一个快速而肮脏的想法......

一些你会经常看到的想法..

  • 从维基百科标题生成列表,提取关键词,预测相关的维基百科页面并使用关键词。
  • 生成手动标记的数据集。
  • 使用填充了主题的图表以及单词和主题之间的关系来预测最可能的主题
  • 抽象摘要和关键短语提取