使用 spaCy 进行地址解析

数据挖掘 机器学习 nlp 斯派西
2021-10-07 09:54:41

我正在尝试使用 NER 使用 spaCy 解析各种文档中的地址,但结果并不那么准确。

我知道这是一个有点笼统的问题,但如果我可以参考任何过去的工作或好的文章或技术来应用这个问题,那将是一个很大的帮助。

1个回答

请查看我的评论以在您的帖子中添加更多信息。根据您提供的信息,以下是我的评论:

  • SpaCy 被训练来寻找位置,而不是地址本身

如果您使用“通用”语言,SpaCy 会使用 WikiNER 数据进行训练,其中位置不是地址,而更像是城市名称、国家名称等地理位置。因此,无法检测到完整地址是很正常的。

您可能需要训练自己的实体识别器。他们在他们的网站上详细说明了如何做到这一点,包括代码示例:https ://spacy.io/usage/training#ner

  • 不要低估 SpaCy 的基于规则的匹配

它是一个花哨的神经网络吗?不,这有关系吗?也没有。SpaCy 允许您创建规则以查找实体,并且在诸如通常遵循跨实体模式的地址之类的情况下。