NER评估指标

数据挖掘 评估 命名实体识别
2022-03-07 14:48:38

我正在尝试在带注释的语料库上比较两个 NER 工具,但我不确定哪个是最好的指标,因为我以前没有使用过 NER 模型。更具体地说,我只对一个课程感兴趣,所以我想在那个特定的课程上评估它们。

1个回答

一个很好的起点是查看 NER 共享任务中使用的评估措施:https ://nlpprogress.com/english/named_entity_recognition.html 。

通常,F1 分数可用于一个特定的类别,但关于将什么计为实例有不同的选项:

  • 每次出现完整的 NE。在这种情况下,预测和黄金之间的任何差异都被视为错误,即使它只是一个象征性差异。
  • 实体中的每个令牌。在这种情况下,部分匹配的实体算作“部分正确”:如果一个词是在外部而不是内部预测的,则它是假阴性,反之亦然。
  • 其他变体:
    • 只计算唯一实体,以观察识别的实体的多样性。
    • 只计算没有出现在训练集中的实体,以观察泛化能力。

(凭记忆写,我可能会错过一些东西)