考虑学习对类似 Google 的搜索进行排名的问题——即,学习在给定查询时返回 URL 的良好排序。大多数(如果不是全部)当前针对此问题的评估指标都是基于 URL 的。当前的评估指标,如平均倒数排名 (MRR) 和折扣累积增益 (DCG),对排名列表中的页面进行加权相关性得分的总和。例如,如果一个排名列表包含 n 个页面,则这些指标给出了 n 个术语的总和。
从我自己的文献回顾来看,似乎没有指标包含单词。虽然有些理论上包含“信息块”,但没有一个在实践中包含“信息块=单词”。我还没有发现最近或过去的文献具体使用单词、短语或任何类似的东西来评分排名列表。由于我没有找到过去的文献,似乎没有尝试过一次基于单词的度量,然后用更粗略的基于 URL 的度量代替。文档包含单词,在类似 Google 的排名列表中返回的片段也是如此,因此应该尝试基于单词的指标似乎很自然。想法?
(注意:一个明显的反对意见是,基于 TREC 的“词相关性”评估是一项模糊甚至昂贵的工作(要求评估者标记词的相关性)。但是还有其他方法可以获得忽略这个问题的相关性反馈,例如使用页面上的停留时间作为代理。)