数据挖掘 - 神经网络的两种不同成本函数，它们如何给出相同的结果？ - 吾爱随笔录

一种是：

J = - \frac{1}{m} \sum_{i = 1}^{m} \sum_{k = 1}^{K} [y_{k}^{i} \log ((h_{θ} (x^{i}))_{k}) + (1 - y_{k}^{i}) \log (1 - (h_{θ} (x^{i}))_{k})]

$J=-\frac{1}{m}\sum_{i=1}^{m}\sum_{k=1}^{K}\Big[y_{k}^{i}\log\big((h_{\theta}(x^{i}))_k\big)+(1-y_{k}^{i})\log\big(1-(h_{\theta}(x^{i}))_k\big)\Big]$

另一个是：

J = - \frac{1}{m} \sum_{i = 1}^{m} [y^{i} \log (a^{i}) + (1 - y^{i}) \log (1 - a^{i})]

$J=-\frac{1}{m}\sum_{i=1}^{m}\Big[y^{i}\log(a^{i})+(1-y^{i})\log(1-a^{i})\Big]$

正如我所看到的，这两个方程不相等。两者如何用于计算成本函数？

此外，其中一个使用 $h$ 函数是 $a$ 输出层，而其他人正在使用 $a$ ( $a$ 是 $f(w*x)$ 在哪里 $f$ 是激活函数）。当我从 Bishop 的《模式识别和机器学习》一书中查看时，他使用 $a$ 对于这两个方程。但是从另一个来源，我从中获取了方程式 $h$ 用来。但是使用不同的 $a$ 值并仅使用其中之一（即 $h$ 这是 $a$ 输出）是完全不同的东西。

两个来源都是可靠的，我错过了什么？