为什么将风险函数定义为损失函数的期望?

机器算法验证 随机变量 决策理论 风险
2022-04-19 07:46:45

在决策理论中,我们将与特定预测函数相关的风险定义为损失函数的期望值。由于输入和输出被认为是随机变量,因此损失函数也是一个随机变量。

我想知道为什么我们假设损失的期望值被认为是对随机变量的一个很好的描述?在我的理解中,随机变量的期望值不一定是对它的一个很好的描述。

那么,为什么将风险函数定义为损失函数的期望值呢?

2个回答

在我的理解中,随机变量的期望值不一定是对它的一个很好的描述。

这取决于您所说的“描述”是什么意思。期望有多种解释,所有这些都可能对您“好”,也可能不“好”。

用频率论者的术语来说,它是数据生成过程的长期平均值如果你从一个随机变量中提取X无限次,观察的平均值将收敛于E(X).

从数学上讲,它是可能结果的加权平均值(即使在连续情况下,如果你眯着眼睛看它)。结果的可能性越大,其权重就越大。

期望也是概率分布的质心这种描述在更高维度上很有吸引力(您可以将数据视为占据空间中的“斑点”),并且类似于物理学中的质心。

最后,期望是一个位置参数这意味着分布预期的变化代表分布密度的变化。如果您更改预期值,就好像您正在从图表中选择分布的密度,然后将其放到其他地方,而无需修改其形状。

“不一定是一个好的描述”的批评可能与这样一个事实有关,即在高度偏斜或重尾分布中,实际上很少有观察值接近预期值点。这是有效的,但可能不是我们有幸关心的事情。正如我在下面提到的,我们真的没有其他选择。

我想知道为什么我们假设损失的期望值被认为是对随机变量的一个很好的描述?

  1. 它是一个位置参数。损失越小越好。如果损失分布的位置较低,则平均损失较小。这就是我们想要的。
  2. 它相对容易计算。它是线性的这一事实特别有用。
  3. 替代的位置参数(中位数、众数、...?)计算起来并不容易,并且可以说平均值更具代表性。
  4. 无论如何,我们在其他任何地方都使用它。
  5. 在经济学和决策理论中,一些最容易使用的效用函数意味着代理人最小化预期损失(或等效地最大化预期收益)。

这就是它的归结:我们可以计算它,它在大多数情况下都有效,并且没有明确的替代方案。

我对这个话题的直觉:

在 Desion Theory 范围内的统计参数设置中,我们想估计,比如说,θΘ以最好的方式,在我们遇到数据之前选择样本数据的函数(统计)。让“最佳”通过损失函数来衡量l:t×θR+, 在哪里t是估计θ. 所以l(t,θ)是高的差值t和零t=θ.

现在我们要比较统计数据T1T2. 如果所有样本的损失函数都小于或等于另一个,那么一个显然是赢家。如果不是这样,我们不能说哪个更好。换句话说,T1可能比T2在样本空间的某个子集中,但是T2可能比T1在另一个子集中。

为了消除对样本空间的依赖,我们可以取平均值。这就是风险函数

现在,假设T1好于T2平均。T2可能比T1在某些情况下呢!T2垫好于T1对于一些值θΘ1Θ,但平均而言更糟!

进一步消除Θ先验地设置Θ- 这是贝叶斯方法。在这里,我们将“重要性”设置为Θ: 更合理的值θ更重要,因为它们更有可能在现实中被发现。

简而言之,我认为我们考虑风险函数的方式是因为它消除了对信息的依赖,在一个我们在收集信息之前做出决定的环境中。


作为对@shadowtalker 答案的补充,重要的是要注意有时(就像@shadowtalker 在重尾分布上建议的那样)期望不足以总结随机变量(尽管是一个很好的“描述符”)。在这些情况下,我们可能需要方差、偏度或峰度。

此外,例如,作为中位数的趋势的其他中心度量在非参数统计中非常有用。尽管历史理论首先是为参数统计开发的,但期望值更具吸引力。