用“欧几里得距离”进行矢量比较的 MSE 公式的解释?

机器算法验证 神经网络 损失函数 欧几里得
2022-04-04 04:59:34

我用人工神经网络研究回归任务的损失函数。在使用多维输出的均方误差评估损失的情况下,我阅读了以下对我来说很简单的常用公式(N 是样本数,M 是输出维度):

但是,我也遇到了稍微不同的格式:

随附的解释说:

"您将把前面等式中的内 sigma 识别为欧几里得距离的平方。事实上,MSE 有时被这些术语所指。请注意,N 和 M 是常数。因此,将它们视为简单的比例因子你可以用其他方式来解释(比如通过缩放学习率)。在很多用例中,为了数学上的方便,M 被删除并添加了除以二(这在反向传播中的梯度上下文中会变得更加清晰)。 "

我不能遵循这个解释(也不能遵循第二个公式)。

  • 公式和欧几里得距离之间有什么联系?
  • “N 和 M 是常数”这一事实如何解释什么?
  • 比例因子是如何出现的?
  • 这里的“数学上的便利”是什么?它如何在反向传播中变得更加清晰?(我或多或少熟悉反向传播)。
1个回答

公式和欧几里得距离之间有什么联系?

考虑之间的欧几里得距离公式y^y当它们具有相同的维度时:

D=i=0n(y^iyi)2

所以正方形是:

D2=i=0n(y^iyi)2

除了因素外,这与您的公式非常接近NM.

“N 和 M 是常数”这一事实如何解释什么?比例因子是如何出现的?

基本上,事实是NM是成本意味着您可以将它们视为比例因子。事实上,您将始终将您的金额划分为相同的数量。

这里的“数学上的便利”是什么?它如何在反向传播中变得更加清晰?(我或多或少熟悉反向传播)。

这只是为了方便起见,因为在反向传播中,您需要计算平方项的导数。因此,如果您的损失函数(为简单起见省略了偏差)是:

L=12Ni=0n(y^ijyij)2

当对其应用幂规则以获得权重的导数时,您将获得:

LW=1Ni=0n(y^ijyij)

所以常数2已从等式中消失。