我想用一组预定义的标签来标记帖子的文本。一个帖子可以有多个标签,如健康、成瘾等。我想推荐最多标签。总数是标签存在。几乎带有标签的帖子可用于测试结果。
我的方法:删除停用词、标点符号。求文章中每个词的词向量与所有标签的向量之间的相似度(余弦)。
问题:上下文相关的标签,如已解雇(如从工作中)显示为不相关的帖子,例如“汽车回火”,并且仅在平均情况下显示出去大多数相似的标签都是相关的。
收集更多帖子(平均字长) 来自其他网站。尝试对帖子进行预处理:创建字典lemmatization,stemming制作弓语料库,然后使用主题建模(潜在狄利克雷分配)
使用过 gensim.models.LdaMulticore 尝试了 BOW 和 tf-idf 模型,但生成的主题的置信度较低(顺序) 中的单词。仅考虑顶部找到相关标签(使用矢量相似度)每个主题的单词。但是性能下降得更多,现在最多标签是相关的。
条件:标签多种多样,很难找到与每个标签相关的帖子/文本。标签不被修改。
有没有人有更好的方法?任何帮助,将不胜感激。