我正在使用斯坦福 NER 执行命名实体识别。我已经成功地训练和测试了我的模型。现在我想知道:
1)NER模型准确率的一般测量方法是什么?例如,使用了哪些技术或方法?
2) STANFORD NER 中是否有任何用于评估准确性的内置方法?
我正在使用斯坦福 NER 执行命名实体识别。我已经成功地训练和测试了我的模型。现在我想知道:
1)NER模型准确率的一般测量方法是什么?例如,使用了哪些技术或方法?
2) STANFORD NER 中是否有任何用于评估准确性的内置方法?
http://en.wikipedia.org/wiki/Named-entity_recognition#Formal_evaluation:
为了评估 NER 系统输出的质量,已经定义了几个衡量标准。虽然令牌级别的准确性是一种可能性,但它存在两个问题:现实世界文本中的绝大多数令牌不是通常定义的实体名称的一部分,因此基线准确性(总是预测“不是实体”)是非常高,通常> 90%;并且错误地预测实体名称的完整跨度不会受到适当的惩罚(当姓氏跟随时仅找到一个人的名字被评为 ½ 准确度)。
在 CoNLL 等学术会议中,F1 分数的一个变体被定义如下:
- 精度是与黄金标准评估数据中的跨度完全一致的预测实体名称跨度的数量。即,当预测 [Person Hans] [Person Blick] 但需要 [Person Hans Blick] 时,预测名称的精度为零。然后在所有预测的实体名称上平均精度。
- 召回率同样是黄金标准中出现在预测中完全相同位置的名字的数量。
- F1分数是这两者的调和平均值。
从上面的定义可以看出,任何错过单个标记、包含虚假标记或具有错误类别的预测“不得分”,即对精确度或召回率没有贡献。
假设您针对标记数据运行测试(-testFile
选项),则斯坦福 NER 将报告实体级别 F1 分数,并在运行结束时报告微平均实体级别 F1。