NLP 对单词类别进行分组

数据挖掘 nlp
2022-02-15 15:15:30

假设我有一本字典:

{apple:large apple, apple:red apple, apple:aple, orange:mandarin, orange:orang, orange:blood orange}

等等...

然后我想用键替换一个大的条目文档。但是,偶尔会出现一个新值,即 {apple:green apple}

有没有一种方法可以用相应的键替换所有值,然后也替换“关闭”值,如出现时给出的值?

示例文档:

var1
_____
aple
apple
orange
Apple
Red apple
gren Apple
blood Orange
orang

var1_replaced
______________
apple
apple
orange
apple
apple
apple
orange
orange
1个回答

嗯......最简单的方法是使用模糊字符串匹配,它会起作用。只需通过它的 python 实现示例(fuzzywuzzy),你就会明白它是如何工作的。您需要通过实践找到一个阈值,以确定两个字符串是否足够相似以被视为相同的概念。

如果它不起作用,请在评论中添加一行,以便我提出更复杂的算法。

祝你好运!