我有一个用于提取答案的 NLP 模型。所以,基本上,我有一个段落和一个问题作为输入,我的模型提取与问题答案相对应的段落跨度。
我需要知道如何计算此类模型的 F1 分数。它是文献中用于评估问答系统的标准指标(与精确匹配一起)。
我有一个用于提取答案的 NLP 模型。所以,基本上,我有一个段落和一个问题作为输入,我的模型提取与问题答案相对应的段落跨度。
我需要知道如何计算此类模型的 F1 分数。它是文献中用于评估问答系统的标准指标(与精确匹配一起)。
在 QA 中,它是根据预测中的各个单词与真实答案中的单词进行计算的。预测和真实之间的共享词数是F1得分的基础:精度是共享词数与预测中的总词数的比率,召回率是共享词数的比率到ground truth中的单词总数。
这真的取决于你在寻找你的模型做什么。例如,假阴性或假阳性真的会花费您的研究(或您的业务)吗?此外,考虑您的标签(类别)分布也非常重要。
如果您只想获得最高的准确性,并且您的班级分布没有任何问题(我相信您的情况可能没有),那么准确性工作得很好。
如果您需要在准确率和召回率之间寻求平衡并且类别分布不均匀,F1 分数可能是一个更好的选择。