机器算法验证 - 归一化交叉熵 - 吾爱随笔录

归一化交叉熵

机器算法验证交叉熵

2022-03-23 23:01:19

在这篇论文中：http: //quinonero.net/Publications/predicting-clicks-facebook.pdf，作者介绍了一个称为标准化交叉熵（NCE）的度量：

NE = \frac{- \frac{1}{N} \sum_{i = 1}^{n} (y_{i} \log (p_{i}) + (1 - y_{i}) \log (1 - p_{i}))}{- (p \log (p) + (1 - p) \log (1 - p))}

$\text{NE} = \frac{-\frac{1}{N} \sum_{i=1}^n(y_i\log(p_i) + (1-y_i)\log(1-p_i))}{-(p\log(p) + (1-p)\log(1-p))}$

其中是估计的并且是训练集上的“平均”概率。请注意，在这里，与论文不同，我假设为分子提供更熟悉的二元交叉熵形式。 $p_i$ $P(y_i=1)$ $p=\sum_i y_i/N$ $y_i \in \{0,1\}$

作者声称归一化，即将分子中的交叉熵除以模型预测每个示例的越接近0 或 1，就越容易实现更好的对数损失（即交叉熵，即分子）。有人可以解释为什么这是真的吗？ $p$ $p$

4个回答

首先注意分母不依赖于模型，所以它只是LLH的线性变换。
除非你的模型比预测常数差，否则分母应该高于分子，所以它通常在 0 到 1 之间
通常，当标签难以准确预测时，LLH 离分母不是很远。所提出的归一化可能允许在具有不同阳性率的数据集之间获得更具可比性的度量。

我个人喜欢使用 1 - LLH / Entropy（所以 1 减去它们的度量），这可以解释为“模型解释的熵的比例”。

我认为作者的意思是，当背景 CTR p 接近 0 或 1 时，分母（背景 CTR 的对数损失）将接近 0。这可以通过绘制图表轻松验证。看起来这句话不是指分子。

简单地说，人们想将他的模型准确性与“免费”香草模型（始终输出多数类）进行比较。如何？创建一个比率并将自由模型的熵放入分母。为什么？对于具有 99% 多数类的极其不平衡的数据，即使是“免费”的香草模型也声称具有很高的准确性，这在现实生活中通常是无用的预测。

我进一步建议进行以下修改：E（我的模型）/E（基线“免费”模型）- 1 以捕捉熵的实际改进。

p越接近0或1，越容易实现更好的log loss（即交叉熵，即分子）。

如果几乎所有案例都属于一个类别，那么我们总是可以预测该类别的高概率并获得相当小的对数损失，因为极端概率将接近几乎所有案例，然后只有几个的错误。将此与课程的完美平衡进行对比。如果我们预测有利于第类的极端概率，那么我们有一半的时间预测是错误的。如果我们预测有利于第类的极端概率，那么我们有一半的时间预测是错误的。 $0$ $1$

有办法打破这一点。例如，对错误类别的极端概率预测可能会破坏整个对数损失计算（在使对数损失非常大的意义上）。因此，我不太确定我是否同意作者提出的主张。

尽管如此，他们的方法似乎与 McFadden 的相似（如果不相同），并且他们完全按照我认为对于样本外风格的度量标准是正确的。McFadden指标以及更多指标在UCLA 页面上讨论了关于分类问题中的伪值。 $R^2$ $R^2$ $R^2$ $R^2$

其它你可能感兴趣的问题

上一篇哪个链接函数可用于响应为百分比（0 - 100%）的 glm？下一篇尾部概率界限磷( | Z| >t)P(|Z|>t)对小的往往没用t > 0t>0. 这是为什么？