我想给使用 LDA 创建的不同主题贴标签。我不想手动做。我看到了一些关于自动标签的论文,但我仍然感到困惑。
如何使用 LDA 生成的信息自动为生成的主题生成名称?
我想给使用 LDA 创建的不同主题贴标签。我不想手动做。我看到了一些关于自动标签的论文,但我仍然感到困惑。
如何使用 LDA 生成的信息自动为生成的主题生成名称?
我想现在回答已经晚了,但它可能会对其他人有所帮助。
LDA 将所有主题呈现为具有权重的关键字的混合例如,在 gensim 实现中,它看起来像这样:
主题#0:0.009*河流+0.008*湖+0.006*岛+0.005*山+0.004*面积+0.004*公园+0.004*南极+0.004*南+0.004*山+0.004*坝
因此,您可以使用权重最大的关键字(如 River+Lake)来命名主题。或者,您可以使用 WordNet 之类的工具为它们找到最常见的上位词。例如,在 python 中,你可以这样做。
from nltk.corpus import wordnet as wn
wn.synset('river.n.01').lowest_common_hypernyms(wn.synset('lake.n.01'))