更正所有大写字母以供人类和算法使用

数据挖掘 nlp 斯坦福-nlp
2021-10-12 17:00:20

美国联邦纳税申报表倾向于全部大写以方便 OCR。即使以电子方式提交申报表,这种做法仍然存在。因此, IRS 990 数据集中的大部分文本都是大写的。这使其难以阅读,并限制了Treebank等算法准确标记词性的能力。

我知道斯坦福 POS 标记器的方法可能更适合纠正大写,但在实践中,我在使用它来纠正 IRS 990 语料库中的文本时运气不佳,其中几乎每个句子都包含一个或更多专有名词。

在使用全部大写文本时,是否有任何“交易技巧”可以提高现成的 POS 标记器的性能,和/或在识别其中的专有名词方面可能做得更好的算法?

1个回答

如果对大小写的敏感性破坏了您的模型,您有两种选择:

  1. 训练或查找不区分大小写的新模型。这可能是最容易做到的事情。斯坦福解析器有一个.

  2. 训练模型以纠正输入的大小写,这有时称为 truecasing。斯坦福解析器也有这个功能