我们可以使用 MLE 来估计神经网络的权重吗?

机器算法验证 最大似然 神经网络
2022-01-24 11:51:50

我刚开始研究统计数据和模型的东西。目前,我的理解是我们使用 MLE 来估计模型的最佳参数。但是,当我尝试了解神经网络的工作原理时,似乎它们通常使用另一种方法来估计参数。为什么我们不使用 MLE 或者根本可以使用 MLE?

2个回答

人工神经网络权重 (ANN) 的 MLE 估计当然是可能的事实上,这完全是典型的。对于分类问题,标准的目标函数是交叉熵,这与二项式模型的对数似然相同。对于回归问题,使用残差平方误差,这与 OLS 回归的 MLE 相似。

但是假设从经典统计中得出的 MLE 的良好特性(例如唯一性)也适用于神经网络的 MLE,存在一些问题。

  1. 人工神经网络估计存在一个普遍问题:即使是单层人工神经网络也有许多对称解决方案。反转隐藏层权重的符号和反转隐藏层激活参数的符号都具有相同的似然性。此外,您可以排列任何隐藏节点,并且这些排列也具有相同的可能性。这是必然的,因为您必须承认您放弃了可识别性。但是,如果可识别性不重要,那么您可以简单地接受这些替代解决方案只是彼此的反映和/或排列。

    这与 MLE 在统计中的经典用法(例如 OLS 回归)形成对比:OLS 问题是凸的,并且当设计矩阵为满秩时是严格凸的。强凸性意味着存在一个唯一的极小值。

  2. 当使用不受约束的解决方案时,ANN 往往会过度拟合数据。权重往往会从原点跑到难以置信的大值,这些值不能很好地概括或预测新数据的准确性。施加权重衰减或其他正则化方法具有将权重估计缩小到零的效果。这不一定解决(1)中的不确定性问题,但它可以提高网络的泛化能力。

  3. 损失函数是非凸的,优化可以找到不是全局最优的局部最优解。或者这些解决方案可能是鞍点,一些优化方法在这里停滞不前。本文的结果发现,现代估计方法回避了这个问题。

  4. 在经典的统计设置中,惩罚拟合方法,如弹性网,L1或者L2正则化可以使凸问题成为秩不足(即非凸)问题。由于(1)中的排列问题,这一事实并未扩展到神经网络设置。即使您限制参数的范数,置换权重或对称反转符号也不会改变参数向量的范数;它也不会改变可能性。因此,置换或反射模型的损失将保持不变,并且模型仍然无法识别。

在分类问题中,最大化似然是训练神经网络(监督和非监督模型)最常用的方法。

在实践中,我们通常最小化负对数似然(等效 MLE)。使用负对数似然的唯一约束是要有一个可以解释为概率分布的输出层。softmax 输出层通常用于这样做。请注意,在神经网络社区中,负对数似然有时被称为交叉熵。当然可以添加正则化项(有时可以解释为参数的先验分布,在这种情况下,我们正在寻找最大后验(MAP))。