机器算法验证 - 交叉熵损失函数的不同定义 - 吾爱随笔录

机器算法验证神经网络损失函数软最大交叉熵

2022-01-25 08:43:37

我从神经网络和深度学习 dot com 教程开始学习神经网络。特别是在第3 章中有一节关于交叉熵函数，并将交叉熵损失定义为：

$C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 - a^L_j))$

然而，阅读Tensorflow 的介绍，交叉熵损失被定义为：

$C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j)$ （使用与上述相同的符号时）

然后四处寻找发生了什么，我发现了另一组注释：（https://cs231n.github.io/linear-classify/#softmax-classifier）它使用了完全不同的交叉熵损失定义，尽管这是softmax 分类器而不是神经网络的时间。

有人可以向我解释这里发生了什么吗？顺便说一句，为什么会有差异。人们将交叉熵损失定义为什么？是否有一些总体原则？

2个回答

这三个定义本质上是相同的。

C = - \frac{1}{n} \sum_{x} \sum_{j} (y_{j} \ln a_{j}) .

$C = -\frac{1}{n} \sum\limits_x\sum\limits_{j} (y_j \ln a_j).$

2) 对于二元分类，它变为并且由于约束和，可改写为与第 3 章相同. $j=2$

C = - \frac{1}{n} \sum_{x} (y_{1} \ln a_{1} + y_{2} \ln a_{2})

$C = -\frac{1}{n} \sum\limits_x (y_1 \ln a_1 + y_2 \ln a_2)$

\sum_{j} a_{j} = 1

$\sum_ja_j=1$

\sum_{j} y_{j} = 1

$\sum_jy_j=1$

C = - \frac{1}{n} \sum_{x} (y_{1} \ln a_{1} + (1 - y_{1}) \ln (1 - a_{1}))

$C = -\frac{1}{n} \sum\limits_x (y_1 \ln a_1 + (1-y_1) \ln (1-a_1))$

3) 此外，如果是one-hot 向量（这通常是分类标签的情况），其中是唯一的非零元素，则相应样本的交叉熵损失为 $y$ $y_k$

C_{x} = - \sum_{j} (y_{j} \ln a_{j}) = - (0 + 0 + . . . + y_{k} \ln a_{k}) = - \ln a_{k} .

$C_x=-\sum\limits_{j} (y_j \ln a_j)=-(0+0+...+y_k\ln a_k)=-\ln a_k.$

在cs231 注释中，一个样本的交叉熵损失与 softmax 归一化一起给出

C_{x} = - \ln (a_{k}) = - \ln (\frac{e^{f_{k}}}{\sum_{j} e^{f_{j}}}) .

$C_x=-\ln(a_k)=-\ln\left(\frac{e^{f_k}}{\sum_je^{f_j}}\right).$

在第三章中，等式 (63) 是应用于多个 sigmoid（可能不等于 1）的交叉熵，而在Tensoflow 介绍中，交叉熵是在 softmax 输出层上计算的。

正如dontloo所解释的，这两个公式对于两个类基本上是等价的，但在考虑两个以上的类时却不是这样。Softmax 对具有排他类的多类有意义（即，当每个样本只有一个标签时，允许标签的 one-hot 编码），而（多个）sigmoid 可用于描述多标签问题（即样本可能为正）几个班级）。

另请参阅此其他dontloo 答案。

其它你可能感兴趣的问题