数据挖掘 - 事件提取系统的性能测量 - 吾爱随笔录

数据挖掘聚类表现文本模型评估

2022-03-12 00:37:38

我已经从文本文档中开发了一个事件提取系统。它首先对数据语料库进行聚类并提取关于什么、何时和何地问题的答案。最终答案是通过使用候选评分函数确定的。我正在努力评估系统的性能。我应该考虑哪些测量？任何建议都受到高度赞赏。附上一张解释问题的图片。

1个回答

标准评估是计算正确预测的比例。

最基本的版本是为每个事件计算 3 个实例：地点、时间、内容。例如，如果三个问题都答对了，则该事件的得分为 3/3。请注意，其中一个问题没有答案的情况应正常计算，即如果系统没有给出任何答案，则它是正确的，但如果有，则它是一个错误。
您可能还会遇到系统根本没有检测到事件的情况，在这种情况下，将三个问题视为错误是有意义的：0/3。
看起来您也可以对其中一个问题有多个答案。在这种情况下，您可能希望计算部分答案，例如，如果系统在 2 个中找到一个正确答案，则为 0.5。此选项可以有不同的变体。

最终评估分数只是在所有事件中汇总。请注意，通常也会计算每种问题的详细分数。

其它你可能感兴趣的问题