事件提取系统的性能测量

数据挖掘 聚类 表现 文本 模型评估
2022-03-12 00:37:38

我已经从文本文档中开发了一个事件提取系统。它首先对数据语料库进行聚类并提取关于什么、何时地问题的答案。最终答案是通过使用候选评分函数确定的。我正在努力评估系统的性能。我应该考虑哪些测量?任何建议都受到高度赞赏。附上一张解释问题的图片。

在此处输入图像描述

1个回答

标准评估是计算正确预测的比例。

  • 最基本的版本是为每个事件计算 3 个实例:地点、时间、内容。例如,如果三个问题都答对了,则该事件的得分为 3/3。请注意,其中一个问题没有答案的情况应正常计算,即如果系统没有给出任何答案,则它是正确的,但如果有,则它是一个错误。
  • 您可能还会遇到系统根本没有检测到事件的情况,在这种情况下,将三个问题视为错误是有意义的:0/3。
  • 看起来您也可以对其中一个问题有多个答案。在这种情况下,您可能希望计算部分答案,例如,如果系统在 2 个中找到一个正确答案,则为 0.5。此选项可以有不同的变体。

最终评估分数只是在所有事件中汇总。请注意,通常也会计算每种问题的详细分数。