美国联邦纳税申报表倾向于全部大写以方便 OCR。即使以电子方式提交申报表,这种做法仍然存在。因此, IRS 990 数据集中的大部分文本都是大写的。这使其难以阅读,并限制了Treebank等算法准确标记词性的能力。
我知道斯坦福 POS 标记器的方法可能更适合纠正大写,但在实践中,我在使用它来纠正 IRS 990 语料库中的文本时运气不佳,其中几乎每个句子都包含一个或更多专有名词。
在使用全部大写文本时,是否有任何“交易技巧”可以提高现成的 POS 标记器的性能,和/或在识别其中的专有名词方面可能做得更好的算法?