在 Python 中匹配数据集中街道地址的最佳方法是什么?

数据挖掘 Python 数据集 熊猫 数据清理
2022-03-09 12:21:03

我有一个政府拥有的地块数据集,我正在尝试将街道地址与现有的政府机构列表相匹配。我使用了模糊匹配并使用了一个忽略大小写和方向区别的正则表达式(例如 North 和 N 被视为相同)。

但是,该程序最终的匹配率非常低,因为很多地址都没有得到匹配。我应该尝试哪些其他方法来提高匹配率?

1个回答

您可以尝试使用它来帮助: https ://github.com/openvenues/libpostal

libpostal 看起来可以通过扩展地址功能跨各种地理样式进行规范化。