我有一个看起来像这样的文件列表:
["Display is flickering"]
["Battery charger is broken"]
["Hard disk is making noises"]
这些文本文档只是自由文本。我已经处理了标记化、词形还原、停用词删除,现在我想根据单词列表分配标签。例子:
{"#display":["display","screen","lcd","led"]}
{"#battery":["battery","power cord","charger","drains"]}
{"#hard disk":["hard disk","performance","slow"]}
文本规范化后,我有:
["Display is flickering"] -> ["display","flicker"]
推荐什么技术来比较 document: ["display","flicker"] 和我的字典并返回最匹配的值?在这种情况下,我想:
["display","flicker"] = "#display":"display"
["battery","charger","broke"] = "#battery":"charger"
基本上,它将令牌中的文档 A 与其他文档的列表 B 进行比较,并返回列表 B 中具有更常见匹配的文档。
我正在使用TF,但想知道是否还有其他技术、代码示例可供使用。