Softmax 函数形式

数据挖掘 神经网络 深度学习 可能性 理论
2022-02-19 12:02:19

n 个输出必须总和为的约束意味着只有 参数是必需的;中减去前概率来获得因此,我们可以强加一个要求,即的一个元素是固定的。例如,我们可以要求事实上,这正是 sigmoid 单元所做的。1n1nthn11zzn=0

  1. 的一个元素是固定的”是什么意思?我知道如果您知道 n-1 但“固定”,您可以获得znth

定义等效于用二维softmax的参数和参数方法都可以描述同一组概率分布,但具有不同的学习动态。P(y=1|x)=σ(z)P(y=1|x)=softmax(z)1zz1=0n1n

  1. 它如何等同于z1=0
1个回答

您问题中引用的书是证明的大纲,该证明显示单个输出 sigmoid 表示与二维 softmax 相同的类概率。

  1. 的一个元素是固定的”是什么意思?我知道如果您知道 n-1 但“固定”,您可以获得znth

这并不意味着必须固定该值。这意味着我们可以选择任何值,并调整其他值以表示任何有效的目标概率。因此,为了论证,我们可以选择任何固定值。zn

  1. 它如何等同于z1=0

之间的等价物,其中σ(z)softmax(z)1z1=0

σ(z)=11+ez

对于 softmax,这是二维输出中第一个元素的函数:

softmax(z)1=ez1i=12ezi=ez1ez1+ez2

但是我们设置了所以:z1=0e0=1

softmax(z)1=11+ez2

这是与相同的函数,因此这两个函数具有相同的形式(如果绘制它们,它们会重叠),尽管参数驱动特定值的方式不同。σ(z2)

请注意,按照第 1 步,我们通过设置并没有丢失任何关于一般行为的信息,我们只是为了简化方程。事实上,可以在不固定任何的情况下做出非常相似的论点,并且您最终会在 softmax 函数中得到等价。z1=0zz1z2zσ(z)