我现在正在研究 IR 系统,在与特定查询相关的 IR 系统输出估值领域,但我需要一些帮助才能正确理解它。
我的书指出,当必须评估 IR 系统时,我们需要由该领域的专家定义的测试文档集合、一组查询示例、每对查询/文档的评估(相关或不相关)。因此,我们需要两个指标来定量地了解 IR 系统是否良好:Precision 和 Recall。
我的疑问与以下问题有关:我们是否仅在测试 IR 系统时才使用这两种措施?
我来解释一下:在我们计算与特定查询示例相关的 Precision 和 Recall 之前(见上文),我们需要知道有多少元素属于相关集合,如果没有评估(相关与否),这是不可能的对于我们正在使用的查询。我的书说我们可以通过使用相关反馈技术(查询扩展和术语重新加权)来增加搜索引擎中的召回率:在这种情况下,我们是否假设召回值是未知的?
例如,每天在 Internet 上共享许多文档,Google 可以找到它们。因此,不可能将 Recall 和 Precision 应用于这种情况,在这种情况下,信息会增长,并且对于每个特定查询的每个新文档都没有估值。预测用户可以在搜索引擎上进行的所有可能查询也是不可能的。