CoreNLP 部分语音标注器和名称实体识别标注器开箱即用,但我想进一步提高准确性,以便整个程序运行得更好。为了解释更多关于准确性的信息——在某些情况下,POS/NER 被错误地标记了。例如:
- “监督汽车制造”被标记为 NNP-NN-NN
而不是 VB* 或类似的东西,因为它是一个类似动词的短语(我不是语言学家,所以对此持保留态度)。
那么实现精度提高的最佳方法是什么?
- 是否有更好的 POS/NER 模型可以整合到 CoreNLP 中?
- 我应该切换到其他 NLP 工具吗?
- 或者创建带有例外规则的训练模型?