在著名的深度学习书籍第 1 章等式 6 中,神经网络中的二次成本(或均方误差)定义为
在哪里是所有权重的集合,并且所有偏差的集合, 是训练输入的数量,x 是所有训练输入的集合,y(x) 是网络对输入 x 的预期输出,并且 是输入的网络的实际输出 , 关于 和 .
这个公式的大部分似乎很清楚,除了 在分母中。如果我理解正确,我们将每个训练输入的平方向量长度(实际输出减去其预期输出)相加(给我们训练集的总平方误差),然后将其除以训练次数样本,得到所有训练样本的均方误差。为什么我们将其划分为 那么呢?
在其他地方,我看到 Andrew Ng 的讲座以类似的方式定义了均方成本,也使用 在分母中,所以这似乎是一个常见的定义。