数据挖掘 - Python中的单词分析 - 吾爱随笔录

我有一个看起来像这样的文件列表：

["Display is flickering"]
["Battery charger is broken"]
["Hard disk is making noises"]

这些文本文档只是自由文本。我已经处理了标记化、词形还原、停用词删除，现在我想根据单词列表分配标签。例子：

{"#display":["display","screen","lcd","led"]}
{"#battery":["battery","power cord","charger","drains"]}
{"#hard disk":["hard disk","performance","slow"]}

文本规范化后，我有：

["Display is flickering"] -> ["display","flicker"]

推荐什么技术来比较 document: ["display","flicker"] 和我的字典并返回最匹配的值？在这种情况下，我想：

["display","flicker"] = "#display":"display"
["battery","charger","broke"] = "#battery":"charger"

基本上，它将令牌中的文档 A 与其他文档的列表 B 进行比较，并返回列表 B 中具有更常见匹配的文档。

我正在使用TF，但想知道是否还有其他技术、代码示例可供使用。