DCG测度的两种定义

数据挖掘 机器学习 推荐系统 信息检索 排行 学习排名
2022-03-03 06:19:21

我想检查原始论文Jarvelin中折扣累积增益(DCG)度量的定义,它似乎与后来的文献Wang中给出的不同。原来,对于n排名从r=1,,p, 这DCGp定义为

DCGp=r=1bGr+r=bpGrlogbr,
在哪里Gi是相关性(或增益)i-th 文件。所以度量取决于对数底b. 对于以下排名b, IEr<b, 收益不会受到惩罚。如果b=2,那么我们可以写:
DCGp=G1+r=2pGrlog2r.
它看起来与维基百科 上给出的不一样,其中对数的参数被移动了1
DCGp=G1+r=2pGrlog2(r+1).

这种变化从何而来?为什么其他人使用不同的指标?

1个回答

我相信您是正确的,该论文和维基百科不同意。该论文的公式建议您在r<=b,这意味着前两个元素都没有折扣。

Wikipedia 公式将第二个元素向前打折。

谈论为什么维基百科公式是正确的有一个慷慨激昂的声明:https ://en.wikipedia.org/wiki/Talk:Discounted_cumulative_gain

但我不明白为什么;除了观察到“不从第二个元素打折似乎显然是错误的”之外,它没有提供任何参考。我会在那里发表评论。