如何清理大量地址

数据挖掘 大数据 数据清理
2022-03-02 07:24:35

我有一个数据集,其中有大量地址。问题在于许多地址虽然相同但没有以相同的方式记录下来。所以我想找到这些相似的地址,并从重复数据中清除我的数据。

有什么标准方法或算法可以帮助我吗?我该如何解决这个问题?

3个回答

我猜您处于地址的不同字段混合在一起的情况。尝试将地址文本分解为带状疱疹,然后尝试使用 Locality-sensitive Hashing

Jeff Ullman 教授的教科书可以帮助您将所需的所有技术放在一起,从第 3.2 节开始

  1. 消除精确重复
  2. 对地址进行模糊匹配以获得近似匹配的分数。
  3. 只保留一个匹配的地址并丢弃其余的

您可以应用聚类算法,例如 KNN 或 Spherical KMeans。在应用算法之前,您可能需要对地址中的文本进行矢量化。

  • 按邮政编码或城市分类
  • 创建剩余地址部分的特征向量(邮政编码/城市/州除外)
  • 应用聚类算法

我不太确定地址字段有多重要,但我什至会在这里尝试正则表达式。