如何提高命名实体识别 (NER) 标记器在本地数据上的准确性?

数据挖掘 nlp 命名实体识别
2022-02-24 02:07:35

我正在使用 spacy 的 NER。它给出了几个单词的错误结果。它在一般数据集上训练。如何自定义本地数据。

例如,

Person -  {'Mike Miller', 'Miller', 'Infantino', 'Gianni Infantino'}
Location -  {'England', 'UK', 'Europe', 'Telegraph'}

在这里,“电报”被错误地分配到位置。

2个回答

@Ravikm,很好的问题。在 Spacy 中,您可以手动分配一个单词。例如,“特斯拉”到 ORG。资料来源:Jose Portilla 在 Udemy 上的 NLP 课程截图。

在此处输入图像描述

除非您重新训练用于生成 NER 结果的模型,否则无法使其变得更好。

但是,您可以做的是,如果 spacy 为每个标签提供概率,您可以在它之上进行一些统计建模,但是我会将其保留为次要选项。