有人可以解释一下吗?
对于输出单元,一个好的技巧是通过考虑相关的负对数似然并选择适当的(条件)输出概率模型(通常在指数族中)来获得输出非线性和损失。例如,通常可以将平方误差和线性输出对应于高斯输出模型,交叉熵和 sigmoid 对应于二项式输出模型,并且 - log output[target class] 与 softmax 输出对应于多项式输出变量.
有人可以解释一下吗?
对于输出单元,一个好的技巧是通过考虑相关的负对数似然并选择适当的(条件)输出概率模型(通常在指数族中)来获得输出非线性和损失。例如,通常可以将平方误差和线性输出对应于高斯输出模型,交叉熵和 sigmoid 对应于二项式输出模型,并且 - log output[target class] 与 softmax 输出对应于多项式输出变量.
在输出端,我们可以有一个激活函数,它从前一层获取加权线性和并将其转换为新范围。以下是您可以使用的一些激活方式:
,身份激活通常在回归模型的最后使用
映射到
映射到
这些激活是可微的,这意味着反向传播将继续工作。现在我们可以操纵我们的输出变成我们想要的范围,我们可以使用它们来将它们用于概率分布。在里面如果我们可以直接将它们用作事件的概率而不是, 所以. 我们还可以使用多个输出节点来参数化概率分布。例如,让我们尝试以我们的输入特征为条件来近似高斯分布. 而不是直接回归我们可以倒退和定义高斯分布。为了我们可以使用身份激活,因为不受约束,需要严格肯定,所以我们可以使用为了那个原因。
然而,在我们的训练数据中,我们没有和, 我们只有一个,来自该概率分布的样本。我们所知道的是,给定一个特定的和那可能性有多大. 100 的值极不可能来自正态分布和,但值为具有更高的密度。高斯的密度是. 这意味着我们可以检查鉴于我们目前的估计和给定并尝试使可能性更高。或者最小化负对数似然,与正常似然相比,它的数值问题较少。