数据挖掘 - 在具有用户反馈的系统环境之外的信息检索中如何定义“相关性”？ - 吾爱随笔录

在具有用户反馈的系统环境之外的信息检索中如何定义“相关性”？

数据挖掘评估信息检索排行

2021-09-23 12:50:51

我见过信息检索系统会从查询中返回一些结果，然后用户将这些结果评为“相关”或“不相关”。

如果没有用户反馈怎么办？

例如，假设您的系统从查询中返回一些排名结果。假设您没有预先定义的相关概念，并且假设您无法收到任何类型的用户反馈。你能做什么？

这很重要，因为信息检索评估指标是基于相关性的。也许没有用户反馈就无法定义相关性，如果是这样，也许可以提出一些不依赖于用户反馈的信息检索评估指标？

1个回答

相关性的概念没有正式的定义，因为相关性完全取决于上下文，因此是高度主观的。这就是为什么评估相关性的最佳方法（有些人可能会说唯一的方法）是实际询问用户什么与他们相关。

对于任何基于 ML 的任务，都需要设计一个适当的评估框架，以控制和衡量结果的质量。自然地，应该选择评估方法，使其尽可能多地反映与任务目标相关的质量水平，即人们对它的直觉期望。评估指标几乎总是这种“质量水平”的简化指标，因此重要的是它们与用户对系统的期望之间的相关性如何：有时即使是完美标准的评估指标也可能不适合任务。

我的观点是，评估是一个分析和设计的问题。有无数种选择，但关键是要为工作选择最合适的一种。以下是其中一些选项：

理想的情况是具有直接适合数据和任务的注释数据（例如用户反馈）：然后只需计算预测正确的频率即可。
通常根据另一个带注释的数据集 X 评估系统，假设任务足够相似，因此如果系统在 X 上运行良好，那么它将在真实数据集上运行良好。
另一种不太理想的方法是根据另一个参考系统 X 的预测进行评估：在这种情况下，X 被认为是黄金标准，因此测试系统没有办法比 X 表现更好。
间接评估：如果在预测的后期阶段还有另一个任务正在执行，并且这个任务可以比 IR 任务本身更容易评估。
启发式：那将是最不可靠的评估，但总比没有好。它的范围从简单地计算查询和前 N 个结果之间的共同词数到使用第三方资源开发复杂的方法。

其它你可能感兴趣的问题

上一篇最终训练中的新参数下一篇网格搜索还是梯度下降？