机器算法验证 - 为什么将风险函数定义为损失函数的期望？ - 吾爱随笔录

为什么将风险函数定义为损失函数的期望？

机器算法验证随机变量决策理论风险

2022-04-19 07:46:45

在决策理论中，我们将与特定预测函数相关的风险定义为损失函数的期望值。由于输入和输出被认为是随机变量，因此损失函数也是一个随机变量。

我想知道为什么我们假设损失的期望值被认为是对随机变量的一个很好的描述？在我的理解中，随机变量的期望值不一定是对它的一个很好的描述。

那么，为什么将风险函数定义为损失函数的期望值呢？

2个回答

在我的理解中，随机变量的期望值不一定是对它的一个很好的描述。

这取决于您所说的“描述”是什么意思。期望有多种解释，所有这些都可能对您“好”，也可能不“好”。

用频率论者的术语来说，它是数据生成过程的长期平均值。如果你从一个随机变量中提取 $X$ 无限次，观察的平均值将收敛于 $E(X)$ .

从数学上讲，它是可能结果的加权平均值（即使在连续情况下，如果你眯着眼睛看它）。结果的可能性越大，其权重就越大。

期望也是概率分布的质心。这种描述在更高维度上很有吸引力（您可以将数据视为占据空间中的“斑点”），并且类似于物理学中的质心。

最后，期望是一个位置参数。这意味着分布预期的变化代表分布密度的变化。如果您更改预期值，就好像您正在从图表中选择分布的密度，然后将其放到其他地方，而无需修改其形状。

“不一定是一个好的描述”的批评可能与这样一个事实有关，即在高度偏斜或重尾分布中，实际上很少有观察值接近预期值点。这是有效的，但可能不是我们有幸关心的事情。正如我在下面提到的，我们真的没有其他选择。

我想知道为什么我们假设损失的期望值被认为是对随机变量的一个很好的描述？

它是一个位置参数。损失越小越好。如果损失分布的位置较低，则平均损失较小。这就是我们想要的。
它相对容易计算。它是线性的这一事实特别有用。
替代的位置参数（中位数、众数、...？）计算起来并不容易，并且可以说比平均值更具代表性。
无论如何，我们在其他任何地方都使用它。
在经济学和决策理论中，一些最容易使用的效用函数意味着代理人最小化预期损失（或等效地最大化预期收益）。

这就是它的归结：我们可以计算它，它在大多数情况下都有效，并且没有明确的替代方案。

我对这个话题的直觉：

在 Desion Theory 范围内的统计参数设置中，我们想估计，比如说， $\theta \in \Theta$ 以最好的方式，在我们遇到数据之前选择样本数据的函数（统计）。让“最佳”通过损失函数来衡量 $l: t \times \theta \to \!R^+$ ，在哪里 $t$ 是估计 $\theta$ . 所以 $l(t, \theta)$ 是高的差值 $t$ 和零 $t=\theta$ .

现在我们要比较统计数据 $T_1$ 和 $T_2$ . 如果所有样本的损失函数都小于或等于另一个，那么一个显然是赢家。如果不是这样，我们不能说哪个更好。换句话说， $T_1$ 可能比 $T_2$ 在样本空间的某个子集中，但是 $T_2$ 可能比 $T_1$ 在另一个子集中。

为了消除对样本空间的依赖，我们可以取平均值。这就是风险函数。

现在，假设 $T_1$ 好于 $T_2$ 平均。 $T_2$ 可能比 $T_1$ 在某些情况下呢！ $T_2$ 垫好于 $T_1$ 对于一些值 $\theta \in \Theta_1 \subset \Theta$ ，但平均而言更糟！

进一步消除对 $\Theta$ 是先验地设置 $\Theta$ - 这是贝叶斯方法。在这里，我们将“重要性”设置为 $\Theta$ : 更合理的值 $\theta$ 更重要，因为它们更有可能在现实中被发现。

简而言之，我认为我们考虑风险函数的方式是因为它消除了对信息的依赖，在一个我们在收集信息之前做出决定的环境中。

作为对@shadowtalker 答案的补充，重要的是要注意有时（就像@shadowtalker 在重尾分布上建议的那样）期望不足以总结随机变量（尽管是一个很好的“描述符”）。在这些情况下，我们可能需要方差、偏度或峰度。

此外，例如，作为中位数的趋势的其他中心度量在非参数统计中非常有用。尽管历史理论首先是为参数统计开发的，但期望值更具吸引力。

其它你可能感兴趣的问题