人工智能 - 如何将监督学习视为给定输入的标签的条件概率？ - 吾爱随笔录

如何将监督学习视为给定输入的标签的条件概率？

人工智能机器学习可能性监督学习统计人工智能贝叶斯深度学习

2021-10-24 04:53:55

在文献和教科书中，人们经常将监督学习表示为条件概率，例如，

ρ (\vec{y} | \vec{x}, \vec{θ})

$\rho(\vec{y}|\vec{x},\vec{\theta})$

在哪里 $\vec{\theta}$ 表示一组学习的网络参数， $\vec{x}$ 是任意输入，并且 $\vec{y}$ 是任意输出。如果我们假设我们已经学会了 $\vec{\theta}$ ，那么，用文字来说， $\rho(\vec{y}|\vec{x},\vec{\theta})$ 是网络将输出任意 $\vec{y}$ 给定任意输入 $\vec{x}$ .

在学习之后，我很难调和如何 $\vec{\theta}$ ，它仍然有一个概率方面。训练后，网络通常是确定性函数，而不是概率。对于任何特定的输入 $\vec{x}$ ，经过训练的网络将始终产生相同的输出。

任何见解将不胜感激。

1个回答

这种公式/解释确实可能令人困惑（甚至误导），因为神经网络的输出通常是确定性的（即给定相同的输入 $x$ ，输出总是相同的，所以没有采样），并且没有真正的概率分布来模拟与网络或输入参数相关的任何不确定性。

人们经常使用这种表示法来表示，在分类的情况下，给定输入的标签上存在分类分布，但这可能会产生误导，因为softmax（通常用于模拟这种分类分布的函数）只会压缩它的输入，并没有真正模拟与输入或神经网络参数相关的任何不确定性，尽管结果向量的元素加起来为 1。换句话说，在传统的深度学习中，每个参数只有一个点估计网络是学习的，并且没有正确建模不确定性。

然而，某些监督学习问题有正式的概率解释。例如，均方误差函数的最小化等效于对数概率的最大化，假设您的概率分布是均值等于模型输出的高斯分布。在这种概率解释中，您通常尝试学习概率（例如，训练数据集中的标签）而不是概率分布。观看Lecture 9.5 — G. Hinton 对权重衰减的贝叶斯解释（机器学习的神经网络）或阅读通过随机动力学的贝叶斯学习论文或通过 R. Neal的混合蒙特卡罗方法对反向传播网络进行贝叶斯训练以了解更多细节。

此外，还有贝叶斯神经网络 (BNN)，它实际上维护了神经网络每个参数的概率分布，该分布对与该参数值相关的不确定性进行建模。在这个 BNN 的前向传递过程中，具体的参数实际上是从相应的概率分布中采样出来的。BNN 的实际可学习参数是这些分布的参数。例如，如果您决定对神经网络的每个参数进行高斯分布，那么您将了解这些高斯分布的均值和方差。

其它你可能感兴趣的问题

上一篇给定矩形的二值化图像，神经网络可以学习预测数字吗？下一篇我们是否需要一个明确的政策来采样一个'A′为了计算 SARSA 或 Q 学习中的目标？