改进 CoreNLP POS 标注器和 NER 标注器?

数据挖掘 nlp 语言模型
2021-09-17 20:57:59

CoreNLP 部分语音标注器和名称实体识别标注器开箱即用,但我想进一步提高准确性,以便整个程序运行得更好。为了解释更多关于准确性的信息——在某些情况下,POS/NER 被错误地标记了。例如:

  • “监督汽车制造”被标记为 NNP-NN-NN

而不是 VB* 或类似的东西,因为它是一个类似动词的短语(我不是语言学家,所以对此持保留态度)。

那么实现精度提高的最佳方法是什么?

  • 是否有更好的 POS/NER 模型可以整合到 CoreNLP 中?
  • 我应该切换到其他 NLP 工具吗?
  • 或者创建带有例外规则的训练模型?
1个回答

你最好的办法是根据你将要使用的数据类型训练你自己的模型。

其它你可能感兴趣的问题