在具有用户反馈的系统环境之外的信息检索中如何定义“相关性”?

数据挖掘 评估 信息检索 排行
2021-09-23 12:50:51

我见过信息检索系统会从查询中返回一些结果,然后用户将这些结果评为“相关”或“不相关”。

如果没有用户反馈怎么办?

例如,假设您的系统从查询中返回一些排名结果。假设您没有预先定义的相关概念,并且假设您无法收到任何类型的用户反馈。你能做什么?

这很重要,因为信息检索评估指标是基于相关性的。也许没有用户反馈就无法定义相关性,如果是这样,也许可以提出一些不依赖于用户反馈的信息检索评估指标?

1个回答

相关性的概念没有正式的定义,因为相关性完全取决于上下文,因此是高度主观的。这就是为什么评估相关性的最佳方法(有些人可能会说唯一的方法)是实际询问用户什么与他们相关。

对于任何基于 ML 的任务,都需要设计一个适当的评估框架,以控制和衡量结果的质量。自然地,应该选择评估方法,使其尽可能多地反映与任务目标相关的质量水平,即人们对它的直觉期望。评估指标几乎总是这种“质量水平”的简化指标,因此重要的是它们与用户对系统的期望之间的相关性如何:有时即使是完美标准的评估指标也可能不适合任务。

我的观点是,评估是一个分析和设计的问题。有无数种选择,但关键是要为工作选择最合适的一种。以下是其中一些选项:

  • 理想的情况是具有直接适合数据和任务的注释数据(例如用户反馈):然后只需计算预测正确的频率即可。
  • 通常根据另一个带注释的数据集 X 评估系统,假设任务足够相似,因此如果系统在 X 上运行良好,那么它将在真实数据集上运行良好。
  • 另一种不太理想的方法是根据另一个参考系统 X 的预测进行评估:在这种情况下,X 被认为是黄金标准,因此测试系统没有办法比 X 表现更好。
  • 间接评估:如果在预测的后期阶段还有另一个任务正在执行,并且这个任务可以比 IR 任务本身更容易评估。
  • 启发式:那将是最不可靠的评估,但总比没有好。它的范围从简单地计算查询和前 N 个结果之间的共同词数到使用第三方资源开发复杂的方法。