字符串匹配

数据挖掘 余弦距离
2022-02-20 00:11:59

我必须处理 2 个数据集,我必须找出两个数据集中存在的地址中的重复项。
我有点困惑,我应该使用 Levenshtein 距离或余弦相似度中的哪一个来找到两个数据集的地址之间的相似性。
我是新手,因此欢迎任何与此相关的建设性建议或建议。提前致谢!!!

1个回答

这个问题称为记录链接有几个相关的问题可能会有所帮助:

通常仅使用基于标记的度量(如 Cosine-TFIDF)是不够的,因为它无法捕获拼写变体和拼写错误。基于字符的方法(如 Levenshtein 编辑距离)在这方面做得更好,但它们不处理例如令牌交换。根据您想要达到的精确程度,有一些混合方法试图结合两者的优点。