神经网络的两种不同成本函数,它们如何给出相同的结果?

数据挖掘 机器学习 神经网络 深度学习 成本函数
2022-03-05 22:35:29

一种是:

J=1mi=1mk=1K[ykilog((hθ(xi))k)+(1yki)log(1(hθ(xi))k)]

另一个是:

J=1mi=1m[yilog(ai)+(1yi)log(1ai)]

正如我所看到的,这两个方程不相等。两者如何用于计算成本函数?

此外,其中一个使用h函数是a输出层,而其他人正在使用a(af(wx)在哪里f是激活函数)。当我从 Bishop 的《模式识别和机器学习》一书中查看时,他使用a对于这两个方程。但是从另一个来源,我从中获取了方程式h用来。但是使用不同的a值并仅使用其中之一(即h这是a输出)是完全不同的东西。

两个来源都是可靠的,我错过了什么?

2个回答

我不记得这本书到底提到了什么,但我猜两者之间的差异是由于具有一个或多个功能。我想这本书已经提到了。他们是一样的。一种用于多维输入,另一种用于一维。一个 sigma 是迭代特征,另一个是迭代示例。你可以把k一个来实现更简单的公式。

理想情况下,成本函数用于识别所有输入值的全局最小值(误差值最小)。无论如何,成本函数仅用于检查最小值,使用不同的方法,但所有成本函数的值保持不变。

成本函数图

在上图中,即将触及 x 轴的值是最佳成本值,并且在所有成本函数中保持相同。