对于使用softmax分类器的简单分类问题(C类),大多数人使用交叉熵损失函数来量化目标。交叉熵损失为:
在哪里是分类器预测分数和是真实标签。为了更新参数,梯度下降用于使分布尽可能类似于分布. 假设空间中的任意点() 我们有地面实况标签这意味着班级问题,属于第 0 类。假设 softmax 分类器的预测为在第一次迭代中。优化时使用梯度下降,预测变化如下:
- [迭代 0] ....
- [迭代 1].......
- [迭代 2] ....
- ..................................................... …………
- [迭代n].......
所以看起来梯度下降试图增加索引 0 的值并减少其他索引的值。根据我的理解,交叉熵仅在正确的类上进行评估,因此其他项将因地面实况数组而归零:
我不明白这里的机制。是梯度下降做这些修改,还是我们定义的交叉熵损失,还是两者的结合?在优化过程中,正确类的预测分数如何增加,而错误类的预测分数如何降低?