信息检索系统的评价指标

数据挖掘 nlp 评估 信息检索 语义相似性
2022-02-02 18:30:39

我目前正在阅读亚马逊发布的语义产品搜索论文。他们正在使用两个评估子任务匹配和排名。在匹配中,他们调整模型超参数以最大化 Recall@100 和平均平均精度 (MAP)。

根据Introduction to Information Retrieval,Precision (P) 是检索到的相关文档的分数:

召回率 (R) 是检索到的相关文档的比例:

如果不可用,我想知道如何提出基本事实(相关性标签)?换句话说,如果我想计算语义产品搜索的精度或召回率,并且我们没有可用于输入产品查询的相关性标签。在那种情况下,研究人员如何计算准确率和召回率?或者他们如何生成它?

1个回答

如果不可用,我想知道如何提出基本事实(相关性标签)?

如果没有人知道输出应该是什么,则根本没有办法正确评估系统。但是,有一些方法可以解决缺少注释数据的问题:

  • 请一组注释者对样本的输出质量进行评分。缺点:如果从未预测过相关实例,注释者不太可能注意到它。
  • 将输出与最先进的系统进行比较。缺点:评价系统只能和参考系统一样好,参考系统的任何错误都被认为是正确的。
  • 使用自动方法生成人工数据。缺点:评估依赖于人工数据的质量,因此理论上必须证明人工数据与真实数据一样好……这通常比实际收集真实数据更难。

在那种情况下,研究人员如何计算准确率和召回率?或者他们如何生成它?

他们不能。这就像在不知道正确答案的情况下给试卷评分。

这就是为什么基准数据集对研究界如此重要并作为适当的科学贡献发表的原因。