数据挖掘 - 使用 logit 的 Softmax 交叉熵的数学和 Tensorflow 实现之间的区别 - 吾爱随笔录

数据挖掘张量流损失函数

2022-03-10 06:54:54

带有 logits 的 Softmax 交叉熵可以定义为：

$a_i = \frac{e^{z_i}}{\sum_{\forall j} e^{z_j}}$

$l={\sum_{\forall i}}y_ilog(a_i)$

在哪里 $l$ 是实际损失。

但是，当您深入研究C++ Tensorflow的SoftmaxCrossEntropyWithLogits操作实现时，他们使用的确切公式被描述为：

$l={\sum_{\forall j}}y_j ((z_j-max(z))-log({\sum_{\forall i}}e^{z_i-max(z)}))$

那个部分： $z-max(z)$ - 完全理解 - 它只是有助于避免下溢/溢出的标准化。

但：

注意：有人可能会争辩说，我提供的代码只是 Tensorflow 的CrossEntropyWithLogits操作实现，但实际SoftmaxCrossEntropyWithLogits操作 - 另外仅检查维度并且不执行任何更多计算。

1个回答

据我了解，softmax 函数 $z_i$ 是（谁）给的 $a_i$ . 然后，只需承担您定义的损失，您就可以准确地返回已实施的公式。然而，正如您所提到的，它的写下方式是为了避免下溢/上溢。

例如，假设您要计算以下内容：

$A=\log(\sum_{i=1}^{4}\exp(z_i))$ ，和 $z_i=(-1000.5,-2000.5,-3000.5,-4000.5)$

显然，如果你只是直接输入公式，你会得到一个下溢错误。相反，如果您通过采用 $\max(z_i)$ ，同样的公式可以写成：

$A=\max_i(z_i)+\log(\sum_{i=1}^{4}\exp(z_i-\max_i(z_i)))$

现在的区别在于表达式是“数值稳定的”，我们看到。 $A\approx -1000.5$

因此，让我们使 softmax 数值稳定：这是为损失实现的表达式（只需乘以上求和）。

\begin{aligned} \log (a_{i}) & = z_{i} - \log (\sum_{j} e^{z_{j}}) \\ = z_{i} - max_{j} (z_{j}) - \log (\sum_{j} e^{z_{j} - max_{j} (z_{j})}) \end{aligned}

$\begin{align} \log(a_i)&=z_i-\log(\sum_j e^{z_j})\\ &=z_i-\max_j(z_j)-\log(\sum_je^{z_j-\max_j(z_j)}) \end{align}$

y_{i}

$y_i$

i

$i$

其它你可能感兴趣的问题