我正在阅读 Léon Bottou 的文章 Stochastic Gradient Descent Tricks(可在此处获得),在第一页他们介绍了经验风险
在哪里是一个损失函数,它衡量预测的成本当实际答案是.
然后,写着:
我们寻求功能最大限度地减少损失 对示例进行平均。
我看不出经验损失和损失函数,谁能解释一下?此外,我不是母语人士,因此“平均示例”可能存在误解。
我正在阅读 Léon Bottou 的文章 Stochastic Gradient Descent Tricks(可在此处获得),在第一页他们介绍了经验风险
在哪里是一个损失函数,它衡量预测的成本当实际答案是.
然后,写着:
我们寻求功能最大限度地减少损失 对示例进行平均。
我看不出经验损失和损失函数,谁能解释一下?此外,我不是母语人士,因此“平均示例”可能存在误解。
我发现接受的答案很难理解。这是一个简化的版本,为我清除了它:
损失函数:损失或风险函数,,量化多好(更准确地说,多坏) 近似于 y。较小的值 表明 是一个很好的近似值
经验风险:经验风险是数据点的平均损失。
有关更多详细信息,请参阅这些斯坦福讲座幻灯片。
损失函数是用来衡量近似质量的函数. 另一方面,经验风险是通过对数据的损失函数进行平均而产生的函数。
更正式地说,考虑您的数据是从一组 然后让
是所有可能函数的集合 你可以选择。那么损失函数就是一个函数. 如果 是一个有限的家庭,并且 是一个损失函数,那么与每个元素相关的经验风险 计算为
请注意,您在编写问题时对域感到困惑。让我为你澄清一下:
在您描述的情况下,考虑到您的每个“数据点” 属于一个集合 , 我们获得 ,然后你就有了 是一个函数
此外,经验风险变为
此外,我应该警告您,将总和除以数据集的大小不会改变最佳函数。
希望这可以帮助!