神经网络中的误差平方和函数从何而来?

数据挖掘 机器学习 神经网络
2021-09-26 01:18:40

训练一个基本的多层感知器神经网络归结为最小化某种误差函数。通常选择误差平方和作为这个误差函数,但是这个函数是从哪里来的呢?

我一直认为选择这个功能是因为它在直觉上很有意义。然而,最近我了解到这只是部分正确,背后还有更多。

Bishop 在他的一篇论文中写道,误差平方和函数可以从最大似然原理推导出来。此外,他写道,因此平方误差假设目标值上的噪声具有高斯分布。

我不确定他的意思。在神经网络的背景下,误差平方和与最大似然原理有何关系?

2个回答

您可以通过多元微积分一直追踪到毕达哥拉斯统计中的平方误差。您基本上是在计算来自多个变量的错误中的“有效长度”,即斜边(X1X2)2+(Y1Y2)2+... 就像在一个三角形中。

但是平方根去哪儿了?

有人意识到在多次迭代中计算多个变量的根在计算上是非常昂贵的。所以他们决定放弃它。在此处查看平方欧几里得距离以获取更多详细信息

三次误差或对数误差将如何影响结果?

收敛需要更多时间,因为它们不那么准确。但是我们确实看到了平方上的对数误差,例如逻辑回归,它更适合

总而言之,这是一个简单的优化案例

您对 Bishop 的引用并不完全准确。他在你链接的论文中说的是

It should be noted that the standard sum-of-squares error, introduced here from a heuristic viewpoint, can be derived from the principle of maximum likelihood on the assumption that the noise on the target data has a Gaussian distribution [references cited]. Even when this assumption is not satisfied, however, the sum-of-squares error function remains of great practical importance.

关于您的问题的重要一点是,在训练多层感知器(MLP)时没有固有的假设存在高斯噪声。因此,对于 MLP,平方和误差函数不是从最大似然原理推导出来的。

例如,考虑训练 MLP 来学习XOR函数。有四对输入和相应的输出,但数据中没有噪声。然而,平方和误差仍然适用。

对神经网络(以及许多其他情况)使用平方和的相关性在于误差函数是可微的,并且由于误差是平方的,它可以用来减少或最小化正误差和负误差的幅度。