数据挖掘 - 通过 softmax 的交叉熵：数学推导 - 吾爱随笔录

我试图理解在 softmax 上下文中交叉熵损失的推导。但是，我仍然不清楚一些步骤。因此，如果有人能解释一下，我将不胜感激。

y = 一种热编码（代表真正的标签）= 选择器

$y ̂=$ NN和softmax预测的值。

通过神经网络： $X\xrightarrow{\smash{NN, θ}} Z \xrightarrow{\smash{Soft-max}} \hat{y}$

为了推导出损失函数，我们从似然函数开始，模型的一组给定参数 θ 可以导致预测每个输入样本的正确类别。这种可能性的最大化可以写成：

a r g m a x_{θ} L (θ | y ̂, Z)

$arg⁡ max _θ L(θ|y ̂,Z)$

似然可以重写为给定参数 θ 生成 t 和 z 的联合概率，可以写成条件分布：由于我们对 z 的概率不感兴趣，我们可以减少它（假设 1）： $L(θ|y ̂,z)$

L (θ │ \hat{y}, Z) = P (\hat{y}, Z │ θ) = P (y ̂ │ Z, θ) P (Z │ θ)

$L(θ│\hat{y} ,Z)=P(\hat{y} , Z│θ)=P(y ̂│Z,θ)P(Z│θ)$

L (θ │ y ̂, Z) \propto P (y ̂ │ Z, θ)

$L(θ│y ̂,Z)∝P(y ̂│Z,θ)$

对于固定 θ（假设 2），可以写为由于每个 yc 都依赖于完整的 z 并且在 t 中只能激活 1 个类，我们可以写为 $P(y ̂|z)$

P (y ̂ │ Z) = \prod_{(c = 1)}^{C} (P (y ̂_{c} | Z))^{y_{c}} = \prod_{(c = 1)}^{C} ((S o f t M a x (Z))^{y_{c}} = \prod_{(c = 1)}^{C} (y ̂_{c})^{y_{c}}

$P(y ̂│Z)= ∏_{(c=1)}^C(P(y ̂_c |Z))^{y_c} =∏_{(c=1)}^C((SoftMax(Z))^{y_c }=∏_{(c=1)}^C(y ̂_c )^{y_c}$

假设 1 和 2 我不清楚。一些解释将不胜感激。