我使用 Mahout 主题建模将 800,000 个文档分为 500 个类别。
我不想使用每个主题的前 5/10 个词来表示主题,而是想使用任何现有算法推断组的通用名称。目前,我使用以下算法来得出主题的名称:
对于每个主题
- 获取属于该主题的所有文档(使用文档-主题分布输出)
- 运行 python nltk 以获取名词短语
- 从输出创建 TF 文件
- 主题名称是短语(最多 5 个单词)
请提出一种方法来获得更相关的主题名称。
我使用 Mahout 主题建模将 800,000 个文档分为 500 个类别。
我不想使用每个主题的前 5/10 个词来表示主题,而是想使用任何现有算法推断组的通用名称。目前,我使用以下算法来得出主题的名称:
对于每个主题
请提出一种方法来获得更相关的主题名称。
我可以推荐几篇关于这个主题的论文:
您可以通过查看他们的引文找到更多信息。
如果您不想在该任务中深入研究 NLP,我建议您从文档中生成一组最常见的 NGram(长度为 2-5),并使用 TF*IDF 度量为每个类别找到最不同的 ngram作为特定 ngram 的意义重要性(按字数标准化度量),并选择那些在特定类别中使用但在其他类别中不(或很少)使用的 Ngram。
您可以尝试使用词向量来平均一个主题中的前 N 个词,然后使用余弦相似度来找到语料库中最接近的词?
只是一个快速而肮脏的想法......
一些你会经常看到的想法..