数据挖掘 - 为什么我们将二次成本函数或 MSE 中的数字加倍？ - 吾爱随笔录

数据挖掘机器学习神经网络梯度下降成本函数

2022-03-08 16:58:10

C (w, b) = \frac{1}{2 n} \sum_{x} | | y (x) - a | |^{2}

$C(w,b) = \frac{1}{2n}\sum_{x}||y(x)-a||^2$

其中 y 是一个 10 维向量，a 是输出，w 是权重，b 是偏差，n 是输入的数量。如果这是 MSE，不应该是吗？ $\frac{1}{n}$

2个回答

这实际上就像在某些地方出现的约定一样，因为我们通常想要取成本函数的导数（即计算梯度），这意味着将把 2 的幂放在前面。

如果我们一开始就将放在前面，那么完成后它看起来会更好。我以前在论文的某个地方看到过这个，但现在找不到参考。 $\frac{1}{2}$

因为成本本身的名义值（值的比例）并不重要，我们可以根据自己的喜好对其进行缩放。乘以的常数不会改变代数行为。 $0.5$

以这种方式制定二次损失很常见，因为。 $\frac{d}{dx}\frac{(x-x')^2}{2} = x - x'$

如果您只对最小化该数量感兴趣，那么是否将其重新缩放为常数并不重要，因为极值的位置是相同的。

其它你可能感兴趣的问题