我有很多地址字符串:
1600 Pennsylvania Ave, Washington, DC 20500 USA
我想将它们解析为它们的组件:
street: 1600 Pennsylvania Ave
city: Washington
province: DC
postcode: 20500
country: USA
但当然数据是脏的:它来自许多国家,使用多种语言,以不同的方式编写,包含拼写错误,缺少部分,有额外的垃圾等等。
目前我们的方法是使用结合模糊地名词典匹配的规则,但我们想探索机器学习技术。我们为监督学习标记了训练数据。问题是,这是一个什么样的机器学习问题?它似乎并不是聚类、分类或回归……
我能想到的最接近的方法是对每个令牌进行分类,但你真的想同时对它们进行分类,满足“最多应该有一个国家”之类的限制;确实有很多方法可以对字符串进行标记,并且您想尝试每种方法并选择最好的……我知道存在一种称为统计解析的东西,但对此一无所知。
那么:我可以探索哪些机器学习技术来解析地址?