为什么目前没有基于内容的信息检索评估指标?

数据挖掘 信息检索 评估
2021-10-03 15:30:37

考虑学习对类似 Google 的搜索进行排名的问题——即,学习在给定查询时返回 URL 的良好排序。大多数(如果不是全部)当前针对此问题的评估指标都是基于 URL 的。当前的评估指标,如平均倒数排名 (MRR) 和折扣累积增益 (DCG),对排名列表中的页面进行加权相关性得分的总和。例如,如果一个排名列表包含 n 个页面,则这些指标给出了 n 个术语的总和。

从我自己的文献回顾来看,似乎没有指标包含单词。虽然有些理论上包含“信息块”,但没有一个在实践中包含“信息块=单词”。我还没有发现最近或过去的文献具体使用单词、短语或任何类似的东西来评分排名列表。由于我没有找到过去的文献,似乎没有尝试过一次基于单词的度量,然后用更粗略的基于 URL 的度量代替。文档包含单词,在类似 Google 的排名列表中返回的片段也是如此,因此应该尝试基于单词的指标似乎很自然。想法?

(注意:一个明显的反对意见是,基于 TREC 的“词相关性”评估是一项模糊甚至昂贵的工作(要求评估者标记词的相关性)。但是还有其他方法可以获得忽略这个问题的相关性反馈,例如使用页面上的停留时间作为代理。)

1个回答

使用基于词的度量将明确支持词级检索方法。理论是(正如您建议的停留时间),URL 级别的指标更直接地衡量所需的结果。

更具体地说,考虑搜索“土豆中的酒精”。假设我们有两个页面:

1) A page that is simply a grocery list (containing "alcohol" and "potatoes") 
2) A page that describes vodka or moonshine which only uses the words "ethanol"
   and "potatoes" but not "alcohol."

单词级别的度量会更喜欢第一个结果,因为它同时包含酒精和土豆。URL 级别的度量可能会将第二个结果标记为更相关,这将允许模型形成超越简单单词匹配的关联(即它可以了解到“酒精”和“伏特加”是相关联的)。