机器算法验证 - 如何计算交叉熵误差函数的导数？ - 吾爱随笔录

如何计算交叉熵误差函数的导数？

机器算法验证机器学习神经网络优化损失函数衍生物

2022-03-23 09:45:00

我正在阅读有关计算交叉熵导数的本教程（如下所示）。作者使用了我认为的逻辑回归的损失函数。 https://www.dropbox.com/s/rxrtz3auu845fuy/Softmax.pdf?dl=0

除了一件事，大多数方程式对我来说都是有意义的。在第二页中，有：但是在第三页中，“互熵导数”变为

\frac{\partial E_{x}}{\partial o_{j}^{x}} = \frac{t_{j}^{x}}{o_{j}^{x}} + \frac{1 - t_{j}^{x}}{1 - o_{j}^{x}}

$\frac{\partial E_x}{\partial o^x_j}=\frac{t_j^x}{o_j^x}+\frac{1-t_j^x}{1-o^x_j}$

\frac{\partial E_{x}}{\partial o_{j}^{x}} = - \frac{t_{j}^{x}}{o_{j}^{x}} + \frac{1 - t_{j}^{x}}{1 - o_{j}^{x}}

$\frac{\partial E_x}{\partial o^x_j}=-\frac{t_j^x}{o_j^x}+\frac{1-t_j^x}{1-o^x_j}$

中有一个减号。那么导数应该是 . 但事实并非如此。我错过了什么？ $E_x$ $\frac{\partial E_x}{\partial o^x_j}=-\frac{t_j^x}{o_j^x}-\frac{1-t_j^x}{1-o^x_j}$

教程：

2个回答

确实有错误：

\begin{aligned} \frac{\partial E_{x}}{\partial o_{j}^{x}} & = \frac{\partial}{\partial o_{j}^{x}} (- \sum_{k} [t_{k}^{x} \log (o_{k}^{x})] + (1 - t_{k}^{x}) \log (1 - o_{k}^{x})]) \\ = - \frac{\partial}{\partial o_{j}^{x}} (\sum_{k} [t_{k}^{x} \log (o_{k}^{x})] + (1 - t_{k}^{x}) \log (1 - o_{k}^{x})]) \\ = - \frac{\partial}{\partial o_{j}^{x}} ([t_{j}^{x} \log (o_{j}^{x})] + (1 - t_{j}^{x}) \log (1 - o_{j}^{x})]) \\ = - (\frac{t_{j}^{x}}{o_{j}^{x}} - \frac{1 - t_{j}^{x}}{1 - o_{j}^{x}}), Chain rule \\ = - \frac{t_{j}^{x}}{o_{j}^{x}} + \frac{1 - t_{j}^{x}}{1 - o_{j}^{x}} \end{aligned}

$\begin{align} \frac{\partial E_x}{\partial o_j^x} &=\frac{\partial }{\partial o_j^x} \left( - \sum_{k}[t_k^x \log(o_k^x)] + (1-t_k^x) \log(1-o_k^x)]\right) \\ &=-\frac{\partial }{\partial o_j^x} \left( \sum_{k}[t_k^x \log(o_k^x)] + (1-t_k^x) \log(1-o_k^x)]\right) \\ &=-\frac{\partial }{\partial o_j^x} \left( [t_j^x \log(o_j^x)] + (1-t_j^x) \log(1-o_j^x)]\right) \\ &=- \left( \frac{t_j^x}{o_j^x} - \frac{1-t_j^x}{1-o_j^x}\right), \text{Chain rule} \\ &=- \frac{t_j^x}{o_j^x} + \frac{1-t_j^x}{1-o_j^x} \\ \end{align}$

记住这一点的一个简单方法是将交叉熵相对于网络参数的梯度内化，这就是著名的。 $t_i - o_i$

最后一张幻灯片正确地做到了这一点。所以，看起来第二张幻灯片有错误。如果您遵循推导，您会注意到一个错误，即无缘无故出现在右侧中间（在最后一个等式之前）的减号。

其它你可能感兴趣的问题

上一篇比较两个分类模型时的统计显着性下一篇什么是共轭先验分布？

如何计算交叉熵误差函数的导数？

中有一个减号。那么导数应该是 . 但事实并非如此。我错过了什么？ExExE_x∂Ex∂oxj=−txjoxj−1−txj1−oxj∂Ex∂ojx=−tjxojx−1−tjx1−ojx\frac{\partial E_x}{\partial o^x_j}=-\frac{t_j^x}{o_j^x}-\frac{1-t_j^x}{1-o^x_j}

中有一个减号。那么导数应该是 . 但事实并非如此。我错过了什么？ $E_x$ $\frac{\partial E_x}{\partial o^x_j}=-\frac{t_j^x}{o_j^x}-\frac{1-t_j^x}{1-o^x_j}$