数据挖掘 - 神经网络中的误差平方和函数从何而来？ - 吾爱随笔录

神经网络中的误差平方和函数从何而来？

数据挖掘机器学习神经网络

2021-09-26 01:18:40

训练一个基本的多层感知器神经网络归结为最小化某种误差函数。通常选择误差平方和作为这个误差函数，但是这个函数是从哪里来的呢？

我一直认为选择这个功能是因为它在直觉上很有意义。然而，最近我了解到这只是部分正确，背后还有更多。

Bishop 在他的一篇论文中写道，误差平方和函数可以从最大似然原理推导出来。此外，他写道，因此平方误差假设目标值上的噪声具有高斯分布。

我不确定他的意思。在神经网络的背景下，误差平方和与最大似然原理有何关系？

2个回答

您可以通过多元微积分一直追踪到毕达哥拉斯统计中的平方误差。您基本上是在计算来自多个变量的错误中的“有效长度”，即斜边 $(X_1 - X_2)^2 + (Y_1 - Y_2)^2 + ...$ 就像在一个三角形中。

但是平方根去哪儿了？

有人意识到在多次迭代中计算多个变量的根在计算上是非常昂贵的。所以他们决定放弃它。在此处查看平方欧几里得距离以获取更多详细信息

三次误差或对数误差将如何影响结果？

收敛需要更多时间，因为它们不那么准确。但是我们确实看到了平方上的对数误差，例如逻辑回归，它更适合

总而言之，这是一个简单的优化案例

您对 Bishop 的引用并不完全准确。他在你链接的论文中说的是

It should be noted that the standard sum-of-squares error, introduced here from a heuristic viewpoint, can be derived from the principle of maximum likelihood on the assumption that the noise on the target data has a Gaussian distribution [references cited]. Even when this assumption is not satisfied, however, the sum-of-squares error function remains of great practical importance.

关于您的问题的重要一点是，在训练多层感知器（MLP）时没有固有的假设存在高斯噪声。因此，对于 MLP，平方和误差函数不是从最大似然原理推导出来的。

例如，考虑训练 MLP 来学习XOR函数。有四对输入和相应的输出，但数据中没有噪声。然而，平方和误差仍然适用。

对神经网络（以及许多其他情况）使用平方和的相关性在于误差函数是可微的，并且由于误差是平方的，它可以用来减少或最小化正误差和负误差的幅度。

其它你可能感兴趣的问题

上一篇如何使用计算的权重绘制超平面下一篇在 Weka 中，如何绘制在测试集和训练集上评估的学习曲线？