我有一个数据集,其中有大量地址。问题在于许多地址虽然相同但没有以相同的方式记录下来。所以我想找到这些相似的地址,并从重复数据中清除我的数据。
有什么标准方法或算法可以帮助我吗?我该如何解决这个问题?
我有一个数据集,其中有大量地址。问题在于许多地址虽然相同但没有以相同的方式记录下来。所以我想找到这些相似的地址,并从重复数据中清除我的数据。
有什么标准方法或算法可以帮助我吗?我该如何解决这个问题?
我猜您处于地址的不同字段混合在一起的情况。尝试将地址文本分解为带状疱疹,然后尝试使用 Locality-sensitive Hashing
Jeff Ullman 教授的教科书可以帮助您将所需的所有技术放在一起,从第 3.2 节开始
您可以应用聚类算法,例如 KNN 或 Spherical KMeans。在应用算法之前,您可能需要对地址中的文本进行矢量化。
我不太确定地址字段有多重要,但我什至会在这里尝试正则表达式。