我见过信息检索系统会从查询中返回一些结果,然后用户将这些结果评为“相关”或“不相关”。
如果没有用户反馈怎么办?
例如,假设您的系统从查询中返回一些排名结果。假设您没有预先定义的相关概念,并且假设您无法收到任何类型的用户反馈。你能做什么?
这很重要,因为信息检索评估指标是基于相关性的。也许没有用户反馈就无法定义相关性,如果是这样,也许可以提出一些不依赖于用户反馈的信息检索评估指标?
我见过信息检索系统会从查询中返回一些结果,然后用户将这些结果评为“相关”或“不相关”。
如果没有用户反馈怎么办?
例如,假设您的系统从查询中返回一些排名结果。假设您没有预先定义的相关概念,并且假设您无法收到任何类型的用户反馈。你能做什么?
这很重要,因为信息检索评估指标是基于相关性的。也许没有用户反馈就无法定义相关性,如果是这样,也许可以提出一些不依赖于用户反馈的信息检索评估指标?
相关性的概念没有正式的定义,因为相关性完全取决于上下文,因此是高度主观的。这就是为什么评估相关性的最佳方法(有些人可能会说唯一的方法)是实际询问用户什么与他们相关。
对于任何基于 ML 的任务,都需要设计一个适当的评估框架,以控制和衡量结果的质量。自然地,应该选择评估方法,使其尽可能多地反映与任务目标相关的质量水平,即人们对它的直觉期望。评估指标几乎总是这种“质量水平”的简化指标,因此重要的是它们与用户对系统的期望之间的相关性如何:有时即使是完美标准的评估指标也可能不适合任务。
我的观点是,评估是一个分析和设计的问题。有无数种选择,但关键是要为工作选择最合适的一种。以下是其中一些选项: