数据挖掘 - 使用预定义的标签集为帖子分配标签 - 吾爱随笔录

我想用一组预定义的标签来标记帖子的文本。一个帖子可以有多个标签，如健康、成瘾等。我想推荐最多 $5$ 标签。总数是 $60$ 标签存在。几乎 $50$ 带有标签的帖子可用于测试结果。

我的方法：删除停用词、标点符号。求文章中每个词的词向量与所有标签的向量之间的相似度（余弦）。

问题：上下文相关的标签，如已解雇（如从工作中）显示为不相关的帖子，例如“汽车回火”，并且仅在平均情况下显示 $3$ 出去 $5$ 大多数相似的标签都是相关的。

收集更多帖子( $~200$ 平均字长 $40$ ) 来自其他网站。尝试对帖子进行预处理：创建字典lemmatization，stemming制作弓语料库，然后使用主题建模（潜在狄利克雷分配）

使用过 gensim.models.LdaMulticore 尝试了 BOW 和 tf-idf 模型，但生成的主题的置信度较低（顺序 $0.07$ ) 中的单词。仅考虑顶部找到相关标签（使用矢量相似度） $10$ 每个主题的单词。但是性能下降得更多，现在最多 $2$ 标签是相关的。

条件：标签多种多样，很难找到与每个标签相关的帖子/文本。标签不被修改。

有没有人有更好的方法？任何帮助，将不胜感激。