数据挖掘 - 如何为使用 LDA 创建的主题命名？ - 吾爱随笔录

数据挖掘机器学习数据挖掘 nlp 文本挖掘主题模型

2021-09-16 18:27:42

我使用 Mahout 主题建模将 800,000 个文档分为 500 个类别。

我不想使用每个主题的前 5/10 个词来表示主题，而是想使用任何现有算法推断组的通用名称。目前，我使用以下算法来得出主题的名称：

对于每个主题

请提出一种方法来获得更相关的主题名称。

4个回答

我可以推荐几篇关于这个主题的论文：

您可以通过查看他们的引文找到更多信息。

如果您不想在该任务中深入研究 NLP，我建议您从文档中生成一组最常见的 NGram（长度为 2-5），并使用 TF*IDF 度量为每个类别找到最不同的 ngram作为特定 ngram 的意义重要性（按字数标准化度量），并选择那些在特定类别中使用但在其他类别中不（或很少）使用的 Ngram。

您可以尝试使用词向量来平均一个主题中的前 N 个词，然后使用余弦相似度来找到语料库中最接近的词？

只是一个快速而肮脏的想法......

一些你会经常看到的想法..

其它你可能感兴趣的问题