我用人工神经网络研究回归任务的损失函数。在使用多维输出的均方误差评估损失的情况下,我阅读了以下对我来说很简单的常用公式(N 是样本数,M 是输出维度):
但是,我也遇到了稍微不同的格式:
随附的解释说:
"您将把前面等式中的内 sigma 识别为欧几里得距离的平方。事实上,MSE 有时被这些术语所指。请注意,N 和 M 是常数。因此,将它们视为简单的比例因子你可以用其他方式来解释(比如通过缩放学习率)。在很多用例中,为了数学上的方便,M 被删除并添加了除以二(这在反向传播中的梯度上下文中会变得更加清晰)。 "
我不能遵循这个解释(也不能遵循第二个公式)。
- 公式和欧几里得距离之间有什么联系?
- “N 和 M 是常数”这一事实如何解释什么?
- 比例因子是如何出现的?
- 这里的“数学上的便利”是什么?它如何在反向传播中变得更加清晰?(我或多或少熟悉反向传播)。