人工智能 - 问答系统中的 F1 分数是如何计算的？ - 吾爱随笔录

人工智能自然语言处理自然语言理解公制问答 f1-分数

2021-11-09 07:20:45

我有一个用于提取答案的 NLP 模型。所以，基本上，我有一个段落和一个问题作为输入，我的模型提取与问题答案相对应的段落跨度。

我需要知道如何计算此类模型的 F1 分数。它是文献中用于评估问答系统的标准指标（与精确匹配一起）。

2个回答

在 QA 中，它是根据预测中的各个单词与真实答案中的单词进行计算的。预测和真实之间的共享词数是F1得分的基础：精度是共享词数与预测中的总词数的比率，召回率是共享词数的比率到ground truth中的单词总数。

这真的取决于你在寻找你的模型做什么。例如，假阴性或假阳性真的会花费您的研究（或您的业务）吗？此外，考虑您的标签（类别）分布也非常重要。

如果您只想获得最高的准确性，并且您的班级分布没有任何问题（我相信您的情况可能没有），那么准确性工作得很好。

如果您需要在准确率和召回率之间寻求平衡并且类别分布不均匀，F1 分数可能是一个更好的选择。

其它你可能感兴趣的问题