一种是:
另一个是:
正如我所看到的,这两个方程不相等。两者如何用于计算成本函数?
此外,其中一个使用函数是输出层,而其他人正在使用(是在哪里是激活函数)。当我从 Bishop 的《模式识别和机器学习》一书中查看时,他使用对于这两个方程。但是从另一个来源,我从中获取了方程式用来。但是使用不同的值并仅使用其中之一(即这是输出)是完全不同的东西。
两个来源都是可靠的,我错过了什么?
一种是:
另一个是:
正如我所看到的,这两个方程不相等。两者如何用于计算成本函数?
此外,其中一个使用函数是输出层,而其他人正在使用(是在哪里是激活函数)。当我从 Bishop 的《模式识别和机器学习》一书中查看时,他使用对于这两个方程。但是从另一个来源,我从中获取了方程式用来。但是使用不同的值并仅使用其中之一(即这是输出)是完全不同的东西。
两个来源都是可靠的,我错过了什么?
我不记得这本书到底提到了什么,但我猜两者之间的差异是由于具有一个或多个功能。我想这本书已经提到了。他们是一样的。一种用于多维输入,另一种用于一维。一个 sigma 是迭代特征,另一个是迭代示例。你可以把一个来实现更简单的公式。
理想情况下,成本函数用于识别所有输入值的全局最小值(误差值最小)。无论如何,成本函数仅用于检查最小值,使用不同的方法,但所有成本函数的值保持不变。
在上图中,即将触及 x 轴的值是最佳成本值,并且在所有成本函数中保持相同。