比较足球队的名字

数据挖掘 nlp
2022-03-05 05:04:43

比较来自不同地点的足球队的最佳方法是什么?例如,一个站点中的一支足球队被命名Academica Clinceni,在另一个站点中和FC Clinceni另一个站点中被命名Acs Fc Academica Clinceni此外,对于一个团队,也可以存在女性版本的团队(例如Acs Fc Academica Clinceni (W)Acs Fc Academica Clinceni (F))。区分这些团队的最佳方法是什么?对于第一个问题,我使用了Fuzzy String Matching,您认为是对的吗?

1个回答

我不知道为什么你的问题被否决了!模糊匹配是一个常见的挑战。我见过的最好的方法是这个:https ://towardsdatascience.com/fuzzy-matching-at-scale-84f2bfd0c536它给出了与 Levenshtein distance 类似的结果,但速度要快得多。如果您使用手动编码的正则表达式功能增强匹配方法以发现例如女性与男性团队,您应该能够很好地匹配团队。