使用预定义的标签集为帖子分配标签

数据挖掘 文本挖掘 nlp
2022-02-13 23:13:18

我想用一组预定义的标签来标记帖子的文本。一个帖子可以有多个标签,如健康、成瘾等。我想推荐最多5标签。总数是60标签存在。几乎50带有标签的帖子可用于测试结果。

我的方法:删除停用词、标点符号。求文章中每个词的词向量与所有标签的向量之间的相似度(余弦)。

问题:上下文相关的标签,如已解雇(如从工作中)显示为不相关的帖子,例如“汽车回火”,并且仅在平均情况下显示3出去5大多数相似的标签都是相关的。

收集更多帖子( 200平均字长40) 来自其他网站。尝试对帖子进行预处理:创建字典lemmatizationstemming制作弓语料库,然后使用主题建模(潜在狄利克雷分配)

使用过 gensim.models.LdaMulticore 尝试了 BOW 和 tf-idf 模型,但生成的主题的置信度较低(顺序0.07) 中的单词。仅考虑顶部找到相关标签(使用矢量相似度)10每个主题的单词。但是性能下降得更多,现在最多2标签是相关的。

条件:标签多种多样,很难找到与每个标签相关的帖子/文本。标签不被修改。

有没有人有更好的方法?任何帮助,将不胜感激。

0个回答
没有发现任何回复~