数据挖掘 - 交叉熵损失和梯度下降的组合如何惩罚和奖励 - 吾爱随笔录

对于使用softmax分类器的简单分类问题（C类），大多数人使用交叉熵损失函数来量化目标。交叉熵损失为：

L = - \sum_{i = 1}^{C} y_{i} l o g (p_{i})

$L = -\sum_{i=1}^C y_ilog(p_i)$

在哪里 $p_i$ 是分类器预测分数和 $y_i$ 是真实标签。为了更新参数，梯度下降用于使分布 $p_i$ 尽可能类似于分布 $y_i$ . 假设空间中的任意点（ $x_i$ ) 我们有地面实况标签 $y_i = [1, 0, 0]$ 这意味着 $C=3$ 班级问题， $x_i$ 属于第 0 类。假设 softmax 分类器的预测为 $p_i = [0.3, 0.6, 0.1]$ 在第一次迭代中。优化时 $L$ 使用梯度下降，预测变化如下：

[迭代 0] .... $p_i = [0.3, 0.6, 0.1]$
[迭代 1]....... $p_i = [0.4, 0.5, 0.08]$
[迭代 2] .... $p_i = [0.55, 0.3, 0.02]$
..................................................... …………
[迭代n]....... $p_i = [0.98, 0.001, 0.0001]$

所以看起来梯度下降试图增加索引 0 的值并减少其他索引的值。根据我的理解，交叉熵仅在正确的类上进行评估，因此其他项将因地面实况数组而归零 $y_i = [1, 0, 0]$ ：

$L = -\sum_{i=1}^C y_ilog(p_i) = - 1 * log(0.3) = 1.2$

我不明白这里的机制。是梯度下降做这些修改，还是我们定义的交叉熵损失，还是两者的结合？在优化过程中，正确类的预测分数如何增加，而错误类的预测分数如何降低？