通过 softmax 的交叉熵:数学推导

数据挖掘 机器学习 深度学习 数据科学模型
2022-03-01 13:10:10

我试图理解在 softmax 上下文中交叉熵损失的推导。但是,我仍然不清楚一些步骤。因此,如果有人能解释一下,我将不胜感激。

y = 一种热编码(代表真正的标签)= 选择器

ŷ=NN和softmax预测的值。

通过神经网络: XNN,θZSoftmaxy^

为了推导出损失函数,我们从似然函数开始,模型的一组给定参数 θ 可以导致预测每个输入样本的正确类别。这种可能性的最大化可以写成:

argmaxθL(θ|ŷ,Z)

似然可以重写为给定参数 θ 生成 t 和 z 的联合概率,可以写成条件分布: 由于我们对 z 的概率不感兴趣,我们可以减少它(假设 1):L(θ|ŷ,z)

L(θy^,Z)=P(y^,Zθ)=P(ŷZ,θ)P(Zθ)

L(θŷ,Z)P(ŷZ,θ)

对于固定 θ(假设 2),可以写为由于每个 yc 都依赖于完整的 z 并且在 t 中只能激活 1 个类,我们可以写为 P(ŷ|z)

P(ŷZ)=(c=1)C(P(ŷc|Z))yc=(c=1)C((SoftMax(Z))yc=(c=1)C(ŷc)yc

假设 1 和 2 我不清楚。一些解释将不胜感激。

1个回答

提示:

  1. P(Z|θ)无关,因此可以将其仅作为乘法因子省略,因为我们对感兴趣。y^y^
  2. θ是一个参数,每个模型确实是固定的,它不是一个变量