神经网络中的误差平方和函数从何而来?
您可以通过多元微积分一直追踪到毕达哥拉斯统计中的平方误差。您基本上是在计算来自多个变量的错误中的“有效长度”,即斜边 就像在一个三角形中。
但是平方根去哪儿了?
有人意识到在多次迭代中计算多个变量的根在计算上是非常昂贵的。所以他们决定放弃它。在此处查看平方欧几里得距离以获取更多详细信息
三次误差或对数误差将如何影响结果?
收敛需要更多时间,因为它们不那么准确。但是我们确实看到了平方上的对数误差,例如逻辑回归,它更适合
总而言之,这是一个简单的优化案例
您对 Bishop 的引用并不完全准确。他在你链接的论文中说的是
It should be noted that the standard sum-of-squares error, introduced here from a heuristic viewpoint, can be derived from the principle of maximum likelihood on the assumption that the noise on the target data has a Gaussian distribution [references cited]. Even when this assumption is not satisfied, however, the sum-of-squares error function remains of great practical importance.
关于您的问题的重要一点是,在训练多层感知器(MLP)时没有固有的假设存在高斯噪声。因此,对于 MLP,平方和误差函数不是从最大似然原理推导出来的。
例如,考虑训练 MLP 来学习XOR函数。有四对输入和相应的输出,但数据中没有噪声。然而,平方和误差仍然适用。
对神经网络(以及许多其他情况)使用平方和的相关性在于误差函数是可微的,并且由于误差是平方的,它可以用来减少或最小化正误差和负误差的幅度。