经验风险与损失函数是否相同?

数据挖掘 神经网络 梯度下降 损失函数
2021-10-10 03:06:51

我正在阅读 Léon Bottou 的文章 Stochastic Gradient Descent Tricks(可在此处获得),在第一页他们介绍了经验风险

En(f)=1ni=1nl(f(xi),yi),

在哪里l(f(x),y)是一个损失函数,它衡量预测的成本f(x)当实际答案是y.

然后,写着:

我们寻求功能fF最大限度地减少损失 Q(z,w)=l(fw(x),y)对示例进行平均。

我看不出经验损失和Q损失函数,谁能解释一下?此外,我不是母语人士,因此“平均示例”可能存在误解。

2个回答

我发现接受的答案很难理解。这是一个简化的版本,为我清除了它:

损失函数:损失或风险函数,L(y^i,yi),量化多好(更准确地说,多坏) y^近似于 y。较小的值L(y^i,yi) 表明 y^ 是一个很好的近似值 y

经验风险:经验风险是数据点的平均损失。

L=1ni=1nL(y^i,yi)

有关更多详细信息,请参阅这些斯坦福讲座幻灯片

损失函数是用来衡量近似质量的函数f. 另一方面,经验风险是通过对数据的损失函数进行平均而产生的函数。

更正式地说,考虑您的数据是从一组 Ω 然后让 D 是所有可能函数的集合 f你可以选择。那么损失函数就是一个函数L:Ω×DR+. 如果{ωi}iIΩ 是一个有限的家庭,并且 L 是一个损失函数,那么与每个元素相关的经验风险 fD 计算为

ρ(f)=1|I|iIL(ωi,f).

请注意,您在编写问题时对域感到困惑。让我为你澄清一下:

在您描述的情况下,考虑到您的每个“数据点” (x,y) 属于一个集合 X×Y, 我们获得 Ω=X×Y,然后你就有了 Q:X×Y×DR+ 是一个函数

Q(x,y,f)=l(f(x),y).

此外,经验风险变为

1|I|iIl(f(xi),yi)=1|I|iIQ(xi,yi,f).

此外,我应该警告您,将总和除以数据集的大小不会改变最佳函数。

希望这可以帮助!