我有一个政府拥有的地块数据集,我正在尝试将街道地址与现有的政府机构列表相匹配。我使用了模糊匹配并使用了一个忽略大小写和方向区别的正则表达式(例如 North 和 N 被视为相同)。
但是,该程序最终的匹配率非常低,因为很多地址都没有得到匹配。我应该尝试哪些其他方法来提高匹配率?
我有一个政府拥有的地块数据集,我正在尝试将街道地址与现有的政府机构列表相匹配。我使用了模糊匹配并使用了一个忽略大小写和方向区别的正则表达式(例如 North 和 N 被视为相同)。
但是,该程序最终的匹配率非常低,因为很多地址都没有得到匹配。我应该尝试哪些其他方法来提高匹配率?
您可以尝试使用它来帮助: https ://github.com/openvenues/libpostal
libpostal 看起来可以通过扩展地址功能跨各种地理样式进行规范化。