数据挖掘 - 如何证明softmax输出形成概率分布而sigmoid输出没有？ - 吾爱随笔录

如何证明softmax输出形成概率分布而sigmoid输出没有？

数据挖掘机器学习神经网络深度学习喀拉斯张量流

2022-02-16 08:20:12

我正在阅读 Nielsen 的书，在第 3 章关于 softmax 函数的这一部分中，他说，就在下面的练习之前，具有输出 softmax 层的神经网络的输出形成概率分布，而 sigmoid 输出并不总是形成它。现在我一直想知道神经网络的输出，如果我有一个 sigmoid 输出层，假设一次观察的输出是 0 类的 0.7，那么 1 类的概率应该是 0.3 吗？或者，在这个二元分类示例中，使用 softmax 输出，在该特定观察中，第 0 类的第一个输出神经元为 0.7，第 1 类的第一个输出神经元为 0.3？

1个回答

Softmax 映射 $f:ℝ^n\rightarrow (0,1)^n$ 这样 $\sum f(\vec x) =1$ . 因此，我们可以将 softmax 的输出解释为概率。

使用 sigmoidal 激活，求和没有这样的约束，所以即使 $0<S(\vec x)<1$ , 不能保证 $\sum S(\vec x)=1$ . sigmoidal 函数不会标准化输出，所以在你的例子中，class 0有输出 $0.7$ ,class 1可以有任何价值 $(0,1)$ , 这可能不是 $0.3$ .

这是一个例子：

$\vec x=[-5,\pi,\frac{1}{3},0]$

$f(\vec x)\approxeq [2.6379\times10^{-4},0.9059,0.05464]$

$S(\vec x)\approxeq [6.693\times10^{-3},0.9586,0.5826,0.5]$

因为和，所以 softmax 输出向量可以解释为概率。另一方面，，因此您不能将 sigmoidal 输出解释为概率分布，即使 $0<f(\vec x)<1$ $\sum f(\vec x)=1$ $\sum S(\vec x) > 1$ $0<S(\vec x)<1$

（我任意选择了上面的来证明输入不必是负数、非负数、有理数等，因此） $\vec x$ $\vec x\in ℝ^n$

其它你可能感兴趣的问题

上一篇具有 1 个隐藏层的 NN：可视化的半平面数下一篇持续训练的问题——监督学习