我正在尝试在带注释的语料库上比较两个 NER 工具,但我不确定哪个是最好的指标,因为我以前没有使用过 NER 模型。更具体地说,我只对一个课程感兴趣,所以我想在那个特定的课程上评估它们。
NER评估指标
数据挖掘
评估
命名实体识别
2022-03-07 14:48:38
1个回答
一个很好的起点是查看 NER 共享任务中使用的评估措施:https ://nlpprogress.com/english/named_entity_recognition.html 。
通常,F1 分数可用于一个特定的类别,但关于将什么计为实例有不同的选项:
- 每次出现完整的 NE。在这种情况下,预测和黄金之间的任何差异都被视为错误,即使它只是一个象征性差异。
- 实体中的每个令牌。在这种情况下,部分匹配的实体算作“部分正确”:如果一个词是在外部而不是内部预测的,则它是假阴性,反之亦然。
- 其他变体:
- 只计算唯一实体,以观察识别的实体的多样性。
- 只计算没有出现在训练集中的实体,以观察泛化能力。
(凭记忆写,我可能会错过一些东西)