如何为 LDA 中的主题命名/标签

数据挖掘 数据挖掘 文本挖掘 主题模型 低密度脂蛋白
2022-02-15 04:37:02

我想给使用 LDA 创建的不同主题贴标签。我不想手动做。我看到了一些关于自动标签的论文,但我仍然感到困惑。

如何使用 LDA 生成的信息自动为生成的主题生成名称?

1个回答

我想现在回答已经晚了,但它可能会对其他人有所帮助。

LDA 将所有主题呈现为具有权重的关键字的混合例如,在 gensim 实现中,它看起来像这样:

主题#0:0.009*河流+0.008*湖+0.006*岛+0.005*山+0.004*面积+0.004*公园+0.004*南极+0.004*南+0.004*山+0.004*坝

因此,您可以使用权重最大的关键字(如 River+Lake)来命名主题。或者,您可以使用 WordNet 之类的工具为它们找到最常见的上位词。例如,在 python 中,你可以这样做。

from nltk.corpus import wordnet as wn
wn.synset('river.n.01').lowest_common_hypernyms(wn.synset('lake.n.01'))