我试图理解在 softmax 上下文中交叉熵损失的推导。但是,我仍然不清楚一些步骤。因此,如果有人能解释一下,我将不胜感激。
y = 一种热编码(代表真正的标签)= 选择器
ŷ =NN和softmax预测的值。
通过神经网络:
X−→−−NN,θZ−→−−−−−Soft−maxy^
为了推导出损失函数,我们从似然函数开始,模型的一组给定参数 θ 可以导致预测每个输入样本的正确类别。这种可能性的最大化可以写成: argmaxθL(θ|ŷ ,Z)
似然可以重写为给定参数 θ 生成 t 和 z 的联合概率,可以写成条件分布:
由于我们对 z 的概率不感兴趣,我们可以减少它(假设 1):L(θ|ŷ ,z)L(θ│y^,Z)=P(y^,Z│θ)=P(ŷ │Z,θ)P(Z│θ)
L(θ│ŷ ,Z)∝P(ŷ │Z,θ)
对于固定 θ(假设 2),可以写为由于每个 yc 都依赖于完整的 z 并且在 t 中只能激活 1 个类,我们可以写为
P(ŷ |z)P(ŷ │Z)=∏C(c=1)(P(ŷ c|Z))yc=∏C(c=1)((SoftMax(Z))yc=∏C(c=1)(ŷ c)yc
假设 1 和 2 我不清楚。一些解释将不胜感激。