事件提取系统的性能测量
数据挖掘
聚类
表现
文本
模型评估
2022-03-12 00:37:38
1个回答
标准评估是计算正确预测的比例。
- 最基本的版本是为每个事件计算 3 个实例:地点、时间、内容。例如,如果三个问题都答对了,则该事件的得分为 3/3。请注意,其中一个问题没有答案的情况应正常计算,即如果系统没有给出任何答案,则它是正确的,但如果有,则它是一个错误。
- 您可能还会遇到系统根本没有检测到事件的情况,在这种情况下,将三个问题视为错误是有意义的:0/3。
- 看起来您也可以对其中一个问题有多个答案。在这种情况下,您可能希望计算部分答案,例如,如果系统在 2 个中找到一个正确答案,则为 0.5。此选项可以有不同的变体。
最终评估分数只是在所有事件中汇总。请注意,通常也会计算每种问题的详细分数。
其它你可能感兴趣的问题
