在这篇论文中:http: //quinonero.net/Publications/predicting-clicks-facebook.pdf,作者介绍了一个称为标准化交叉熵(NCE)的度量:
其中是估计的并且是训练集上的“平均”概率。请注意,在这里,与论文不同,我假设为分子提供更熟悉的二元交叉熵形式。
作者声称归一化,即将分子中的交叉熵除以模型预测每个示例的越接近0 或 1,就越容易实现更好的对数损失(即交叉熵,即分子)。有人可以解释为什么这是真的吗?
在这篇论文中:http: //quinonero.net/Publications/predicting-clicks-facebook.pdf,作者介绍了一个称为标准化交叉熵(NCE)的度量:
其中是估计的并且是训练集上的“平均”概率。请注意,在这里,与论文不同,我假设为分子提供更熟悉的二元交叉熵形式。
作者声称归一化,即将分子中的交叉熵除以模型预测每个示例的越接近0 或 1,就越容易实现更好的对数损失(即交叉熵,即分子)。有人可以解释为什么这是真的吗?
我个人喜欢使用 1 - LLH / Entropy(所以 1 减去它们的度量),这可以解释为“模型解释的熵的比例”。
我认为作者的意思是,当背景 CTR p 接近 0 或 1 时,分母(背景 CTR 的对数损失)将接近 0。这可以通过绘制图表轻松验证。看起来这句话不是指分子。
简单地说,人们想将他的模型准确性与“免费”香草模型(始终输出多数类)进行比较。如何?创建一个比率并将自由模型的熵放入分母。为什么?对于具有 99% 多数类的极其不平衡的数据,即使是“免费”的香草模型也声称具有很高的准确性,这在现实生活中通常是无用的预测。
我进一步建议进行以下修改:E(我的模型)/E(基线“免费”模型)- 1 以捕捉熵的实际改进。
p越接近0或1,越容易实现更好的log loss(即交叉熵,即分子)。
如果几乎所有案例都属于一个类别,那么我们总是可以预测该类别的高概率并获得相当小的对数损失,因为极端概率将接近几乎所有案例,然后只有几个的错误。将此与课程的完美平衡进行对比。如果我们预测有利于第类的极端概率,那么我们有一半的时间预测是错误的。如果我们预测有利于第类的极端概率,那么我们有一半的时间预测是错误的。
有办法打破这一点。例如,对错误类别的极端概率预测可能会破坏整个对数损失计算(在使对数损失非常大的意义上)。因此,我不太确定我是否同意作者提出的主张。
尽管如此,他们的方法似乎与 McFadden 的相似(如果不相同) ,并且他们完全按照我认为对于样本外风格的度量标准是正确的。McFadden指标以及更多指标在UCLA 页面上讨论了关于分类问题中的伪值。