刚刚登陆实体解析(匹配)项目。我在 python 中工作,我想知道是否有现成的字符串协调函数实现,包括:
- 去除尾随空格
- 删除多个空格
- 删除特殊字符(例如 ü)
- ...
所有这一切都可以通过字符串和正则表达式操作轻松完成,但我不想重新发明轮子并利用已经准备好的东西(也许从中学习,我是否需要稍后继续进行自定义)。有现成的库吗?试过nltk,它建议使用正则表达式、textblob和谷歌搜索,但到目前为止没有发现任何真正有用的东西——可能是因为我没有使用正确的关键字。
例如,有一个函数可以用形态学等价物替换来自外语的特殊字符 - 例如德语中的“ß”用“ss”(“straße”->“strasse”)
编辑:澄清 在我的问题中,我并没有真正指定手头的问题。这是因为我想要达到的实际上是一个“语法”,它可以让我和我团队中的其他人定义协调/规范化操作的工作流程。
我目前正在将其作为一系列函数 f: string -> string 工作。某些步骤是否是其中的一部分,这将取决于手头的问题。工作流程可能会经过经验测试(我们将选择导致最佳算法的工作流程)