如何使用 ndcg 度量进行二元相关性

数据挖掘 机器学习 推荐系统 排行 学习排名 文本分类
2021-10-04 04:41:49

我正在研究一个排名问题,以根据用户查询预测正确的单个文档,并使用 NDCG 指标来衡量模型。

鉴于细节:

查询 ( Q )、结果文档 ( D )、相关性分数。但是相关性分数是二进制的(0 或1),即在文档列表中,只有一个文档被标记为相关性分数=1。

数据集示例:

 query, docs,relevance
{
[1, doc2,0],[1, doc3,0],[1, doc4,0 ],[1, doc6,1],[1, doc9,0]
[2, doc3,0],[2, doc5,1],[2, doc10,0],[2, doc11,0],[2, doc1,0]
}

我的问题: 1. 是否可以使用 NDCG 度量来解决二元相关问题?2. 如果有,请分享一些阅读笔记或建议。

谢谢

1个回答

nDCG 取决于您在 Wikipedia定义中看到的每个文档的相关性。我想您可以使用 0 和 1 作为相关性分数,但是所有相关文档的分数都为 1,然后应用 nDCG 惩罚折扣就没有多大意义了。

通常与二进制相关性分数一起使用的类似度量是平均平均精度,定义为:

地图=q=1平均电压(q),

在哪里是查询的数量。

nDCG 和 MAP 的综合解释可在此处获得