数据挖掘 - 更正所有大写字母以供人类和算法使用 - 吾爱随笔录

美国联邦纳税申报表倾向于全部大写以方便 OCR。即使以电子方式提交申报表，这种做法仍然存在。因此， IRS 990 数据集中的大部分文本都是大写的。这使其难以阅读，并限制了Treebank等算法准确标记词性的能力。

我知道斯坦福 POS 标记器的方法可能更适合纠正大写，但在实践中，我在使用它来纠正 IRS 990 语料库中的文本时运气不佳，其中几乎每个句子都包含一个或更多专有名词。

在使用全部大写文本时，是否有任何“交易技巧”可以提高现成的 POS 标记器的性能，和/或在识别其中的专有名词方面可能做得更好的算法？