评估 IR 系统(精确度和召回率)

数据挖掘 信息检索
2022-02-06 12:10:53

我现在正在研究 IR 系统,在与特定查询相关的 IR 系统输出估值领域,但我需要一些帮助才能正确理解它。

我的书指出,当必须评估 IR 系统时,我们需要由该领域的专家定义的测试文档集合、一组查询示例、每对查询/文档的评估(相关或不相关)。因此,我们需要两个指标来定量地了解 IR 系统是否良好:Precision 和 Recall。

我的疑问与以下问题有关:我们是否仅在测试 IR 系统时才使用这两种措施?

我来解释一下:在我们计算与特定查询示例相关的 Precision 和 Recall 之前(见上文),我们需要知道有多少元素属于相关集合,如果没有评估(相关与否),这是不可能的对于我们正在使用的查询。我的书说我们可以通过使用相关反馈技术(查询扩展和术语重新加权)来增加搜索引擎中的召回率:在这种情况下,我们是否假设召回值是未知的?

例如,每天在 Internet 上共享许多文档,Google 可以找到它们。因此,不可能将 Recall 和 Precision 应用于这种情况,在这种情况下,信息会增长,并且对于每个特定查询的每个新文档都没有估值。预测用户可以在搜索引擎上进行的所有可能查询也是不可能的。

1个回答

我的疑问与以下问题有关:我们是否仅在测试 IR 系统时才使用这两种措施?

从技术上讲,答案是否定的,因为精度和召回率不仅用于评估IR 系统,还用于评估许多其他任务。但是,您的问题似乎特定于 IR,因此我假设它实际上是关于测试和评估之间的区别

  • 测试机器学习系统包括预测作为输入给定的一组实例的目标变量(在监督学习的情况下,还需要从前一阶段的训练获得的“模型”作为输入)。在这个阶段,我们不知道预测是否正确。
  • 评估是评估预测质量的过程:它是在从测试阶段获得预测之后完成的,它需要某种形式的“黄金标准”,即数据表明每个实例的正确答案是什么。

在 IR 中,每次运行系统以根据查询查找相关文档时都会发生测试阶段。

  • 自然,首先要确保系统正常工作并返回实际相关的文档,因此需要对系统进行评估,例如使用包含一些查询及其相关文档的数据集(黄金标准)进行精确度和召回率。
  • 一旦评估了质量,目标是使用 IR 系统(测试),而不是每次都评估结果。当然没有评估,因此不使用性能指标(精度和召回率)。