为什么我们将二次成本函数或 MSE 中的数字加倍?

数据挖掘 机器学习 神经网络 梯度下降 成本函数
2022-03-08 16:58:10

C(w,b)=12nx||y(x)a||2

其中 y 是一个 10 维向量,a 是输出,w 是权重,b 是偏差,n 是输入的数量。如果这是 MSE,不应该是吗?1n

关联

2个回答

这实际上就像在某些地方出现的约定一样,因为我们通常想要取成本函数的导数(即计算梯度),这意味着将把 2 的幂放在前面。

如果我们一开始就将放在前面,那么完成后它看起来会更好。我以前在论文的某个地方看到过这个,但现在找不到参考。12

因为成本本身的名义值(值的比例)并不重要,我们可以根据自己的喜好对其进行缩放。乘以的常数不会改变代数行为。0.5

以这种方式制定二次损失很常见,因为ddx(xx)22=xx

如果您只对最小化该数量感兴趣,那么是否将其重新缩放为常数并不重要,因为极值的位置是相同的。