损失给定的激活函数和概率模型

数据挖掘 机器学习 深度学习 优化
2022-03-10 12:14:41

有人可以解释一下吗?

对于输出单元,一个好的技巧是通过考虑相关的负对数似然并选择适当的(条件)输出概率模型(通常在指数族中)来获得输出非线性和损失。例如,通常可以将平方误差和线性输出对应于高斯输出模型,交叉熵和 sigmoid 对应于二项式输出模型,并且 - log output[target class] 与 softmax 输出对应于多项式输出变量.

1个回答

在输出端,我们可以有一个激活函数,它从前一层获取加权线性和并将其转换为新范围。以下是您可以使用的一些激活方式:

x=x,身份激活通常在回归模型的最后使用

σ(x)=11+ex映射到(0,1)

exp(x)=ex映射到(0,)

这些激活是可微的,这意味着反向传播将继续工作。现在我们可以操纵我们的输出变成我们想要的范围,我们可以使用它们来将它们用于概率分布。在里面σ如果我们可以直接将它们用作事件的概率Y而不是Y, 所以P(Y|X). 我们还可以使用多个输出节点来参数化概率分布。例如,让我们尝试以我们的输入特征为条件来近似高斯分布x. 而不是直接回归y我们可以倒退μσ定义高斯分布。为了μ我们可以使用身份激活,因为μ不受约束,σ需要严格肯定,所以我们可以使用ex为了那个原因。

然而,在我们的训练数据中,我们没有μσ, 我们只有一个y,来自该概率分布的样本。我们所知道的是,给定一个特定的μσ那可能性有多大y. 100 的值极不可能来自正态分布μ=20σ=20,但值为20具有更高的密度。高斯的密度是f(y|μ,σ2)=12πσ2e(yμ)22σ2. 这意味着我们可以检查y鉴于我们目前的估计μσ给定x并尝试使可能性更高。或者最小化负对数似然,与正常似然相比,它的数值问题较少。