数据挖掘 - 经验风险与损失函数是否相同？ - 吾爱随笔录

经验风险与损失函数是否相同？

数据挖掘神经网络梯度下降损失函数

2021-10-10 03:06:51

我正在阅读 Léon Bottou 的文章 Stochastic Gradient Descent Tricks（可在此处获得），在第一页他们介绍了经验风险

$E_n(f) = \frac{1}{n} \sum_{i=1}^{n} l(f(x_i),y_i),$

在哪里 $l(f(x),y)$ 是一个损失函数，它衡量预测的成本 $f(x)$ 当实际答案是 $y$ .

然后，写着：

我们寻求功能 $f \in \mathcal{F}$ 最大限度地减少损失 $Q(z,w) = l(f_w(x),y)$ 对示例进行平均。

我看不出经验损失和 $Q$ 损失函数，谁能解释一下？此外，我不是母语人士，因此“平均示例”可能存在误解。

2个回答

我发现接受的答案很难理解。这是一个简化的版本，为我清除了它：

损失函数：损失或风险函数， $\mathcal{L}(\hat{y}^i, y^i)$ ，量化多好（更准确地说，多坏） $\hat{y}$ 近似于 y。较小的值 $\mathcal{L}(\hat{y}^i, y^i)$ 表明 $\hat{y}$ 是一个很好的近似值 $y$

经验风险：经验风险是数据点的平均损失。

L = \frac{1}{n} \sum_{i = 1}^{n} L ({\hat{y}}^{i}, y^{i})

$\mathcal{L} = \frac{1}{n}\sum_{i=1}^n \mathcal{L}(\hat{y}^i, y^i)$

有关更多详细信息，请参阅这些斯坦福讲座幻灯片。

损失函数是用来衡量近似质量的函数 $f$ . 另一方面，经验风险是通过对数据的损失函数进行平均而产生的函数。

更正式地说，考虑您的数据是从一组 $\Omega$ 然后让 $\mathcal{D}$ 是所有可能函数的集合 $f$ 你可以选择。那么损失函数就是一个函数 $L\colon\Omega\times\mathcal{D}\to\mathbb{R}_{+}$ . 如果 $\{\omega_i\}_{i\in I}\subseteq\Omega$ 是一个有限的家庭，并且 $L$ 是一个损失函数，那么与每个元素相关的经验风险 $f\in\mathcal{D}$ 计算为

ρ (f) = \frac{1}{| I |} \sum_{i \in I} L (ω_{i}, f) .

$\rho(f)=\frac{1}{\vert I \vert}\sum_{i\in I}L(\omega_i,f).$

请注意，您在编写问题时对域感到困惑。让我为你澄清一下：

在您描述的情况下，考虑到您的每个“数据点” $(x,y)$ 属于一个集合 $X\times Y$ ，我们获得 $\Omega=X\times Y$ ，然后你就有了 $Q\colon X\times Y\times \mathcal D\to\mathbb{R}_{+}$ 是一个函数

Q (x, y, f) = l (f (x), y) .

$Q(x,y,f)=l(f(x),y).$

此外，经验风险变为

\frac{1}{| I |} \sum_{i \in I} l (f (x_{i}), y_{i}) = \frac{1}{| I |} \sum_{i \in I} Q (x_{i}, y_{i}, f) .

$\frac{1}{\vert I\vert}\sum_{i\in I}l(f(x_i),y_i)=\frac{1}{\vert I\vert}\sum_{i\in I}Q(x_i,y_i,f).$

此外，我应该警告您，将总和除以数据集的大小不会改变最佳函数。

希望这可以帮助！

其它你可能感兴趣的问题

上一篇如何应用超过一百万个向量与其他一百万个向量的相似性算法（或比较）？下一篇强化学习可以应用于图像分类吗？