使用美式和英文单词标记文本

数据挖掘 文本挖掘 nltk 文本过滤器
2022-02-22 11:10:35

我需要标记一个国际会议的摘要语料库。摘要通常是美式英语,但有时是英式英语。

因此,我得到“组织”和“组织”或“颜色”和“颜色”的 2 个标记。示例:https ://en.oxforddictionaries.com/spelling/british-and-spelling

您知道将“英国英语”转换为“美国英语”(反之亦然)的(python)库吗?

我会很高兴...(但我是法国人,我的英语不太好)

谢谢。

1个回答

对相关标记进行分组称为文本规范化

没有一个既定的 Python 包可以做到这一点。您可以创建自定义字典或编写函数来重写标记