数据挖掘 - 损失给定的激活函数和概率模型 - 吾爱随笔录

损失给定的激活函数和概率模型

数据挖掘机器学习深度学习优化

2022-03-10 12:14:41

有人可以解释一下吗？

对于输出单元，一个好的技巧是通过考虑相关的负对数似然并选择适当的（条件）输出概率模型（通常在指数族中）来获得输出非线性和损失。例如，通常可以将平方误差和线性输出对应于高斯输出模型，交叉熵和 sigmoid 对应于二项式输出模型，并且 - log output[target class] 与 softmax 输出对应于多项式输出变量.

1个回答

在输出端，我们可以有一个激活函数，它从前一层获取加权线性和并将其转换为新范围。以下是您可以使用的一些激活方式：

$x = x$ ，身份激活通常在回归模型的最后使用

$\sigma(x) = \frac{1}{1+e^{-x}}$ 映射到 $(0, 1)$

$exp(x) = e^x$ 映射到 $(0,\infty)$

这些激活是可微的，这意味着反向传播将继续工作。现在我们可以操纵我们的输出变成我们想要的范围，我们可以使用它们来将它们用于概率分布。在里面 $\sigma$ 如果我们可以直接将它们用作事件的概率 $Y$ 而不是 $Y$ ，所以 $P(Y|X)$ . 我们还可以使用多个输出节点来参数化概率分布。例如，让我们尝试以我们的输入特征为条件来近似高斯分布 $x$ . 而不是直接回归 $y$ 我们可以倒退 $\mu$ 和 $\sigma$ 定义高斯分布。为了 $\mu$ 我们可以使用身份激活，因为 $\mu$ 不受约束， $\sigma$ 需要严格肯定，所以我们可以使用 $e^x$ 为了那个原因。

然而，在我们的训练数据中，我们没有 $\mu$ 和 $\sigma$ , 我们只有一个 $y$ ，来自该概率分布的样本。我们所知道的是，给定一个特定的 $\mu$ 和 $\sigma$ 那可能性有多大 $y$ . 100 的值极不可能来自正态分布 $\mu = 20$ 和 $\sigma=20$ ，但值为 $20$ 具有更高的密度。高斯的密度是 $f(y|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y-\mu)^2}{2\sigma^2}}$ . 这意味着我们可以检查 $y$ 鉴于我们目前的估计 $\mu$ 和 $\sigma$ 给定 $x$ 并尝试使可能性更高。或者最小化负对数似然，与正常似然相比，它的数值问题较少。

其它你可能感兴趣的问题

上一篇Keras：内置多层快捷方式下一篇两层的问题：如何预测？