n 个输出必须总和为的约束意味着只有 参数是必需的;第中减去前概率来获得。因此,我们可以强加一个要求,即的一个元素是固定的。例如,我们可以要求。事实上,这正是 sigmoid 单元所做的。
- 的一个元素是固定的”是什么意思?我知道如果您知道 n-1 但“固定”,您可以获得
定义等效于用二维和。softmax的参数和参数方法都可以描述同一组概率分布,但具有不同的学习动态。
- 它如何等同于?
n 个输出必须总和为的约束意味着只有 参数是必需的;第中减去前概率来获得。因此,我们可以强加一个要求,即的一个元素是固定的。例如,我们可以要求。事实上,这正是 sigmoid 单元所做的。
定义等效于用二维和。softmax的参数和参数方法都可以描述同一组概率分布,但具有不同的学习动态。
您问题中引用的书是证明的大纲,该证明显示单个输出 sigmoid 表示与二维 softmax 相同的类概率。
- 的一个元素是固定的”是什么意思?我知道如果您知道 n-1 但“固定”,您可以获得
这并不意味着必须固定该值。这意味着我们可以选择任何值,并调整其他值以表示任何有效的目标概率。因此,为了论证,我们可以选择任何固定值。
- 它如何等同于?
和之间的等价物,其中:
对于 softmax,这是二维输出中第一个元素的函数:
但是我们设置了和所以:
这是与相同的函数,因此这两个函数具有相同的形式(如果绘制它们,它们会重叠),尽管参数驱动特定值的方式不同。
请注意,按照第 1 步,我们通过设置并没有丢失任何关于一般行为的信息,我们只是为了简化方程。事实上,可以在不固定任何值的情况下做出非常相似的论点,并且您最终会在 softmax 函数中得到和中等价。