数据挖掘 - 如何清理大量地址 - 吾爱随笔录

数据挖掘大数据数据清理

2022-03-02 07:24:35

我有一个数据集，其中有大量地址。问题在于许多地址虽然相同但没有以相同的方式记录下来。所以我想找到这些相似的地址，并从重复数据中清除我的数据。

有什么标准方法或算法可以帮助我吗？我该如何解决这个问题？

3个回答

我猜您处于地址的不同字段混合在一起的情况。尝试将地址文本分解为带状疱疹，然后尝试使用 Locality-sensitive Hashing

Jeff Ullman 教授的教科书可以帮助您将所需的所有技术放在一起，从第 3.2 节开始

您可以应用聚类算法，例如 KNN 或 Spherical KMeans。在应用算法之前，您可能需要对地址中的文本进行矢量化。

我不太确定地址字段有多重要，但我什至会在这里尝试正则表达式。

其它你可能感兴趣的问题