目前我正在使用 LDA 将主题建模应用于语料库。由于 LDA 是无监督的,它返回给定“主题”的一组词,但不一定指定主题本身。我想知道对于采用单词列表并查看可以分类到哪些主题的算法是否有任何建议?
例如[cat, dog, fish]
可以归类为animals
或pets
。
我的模型的一个输出:
['game', 'week', 'fantasy', 'sportsline', 'play', 'players', 'league', 'random', 'sunday', 'season', 'agent', 'elink', 'exercise', 'start', 'yards', 'free', 'injury', 'expected', 'practice', 'getbad', 'weekly', 'year', 'reports', 'starting', 'luck', 'nat', 'nfl', 'weeks', 'smith', 'fast']
可以归类为football
或sports
。
任何建议,特别是 Python 模型/包,将不胜感激。