在决策理论中,我们将与特定预测函数相关的风险定义为损失函数的期望值。由于输入和输出被认为是随机变量,因此损失函数也是一个随机变量。
我想知道为什么我们假设损失的期望值被认为是对随机变量的一个很好的描述?在我的理解中,随机变量的期望值不一定是对它的一个很好的描述。
那么,为什么将风险函数定义为损失函数的期望值呢?
在决策理论中,我们将与特定预测函数相关的风险定义为损失函数的期望值。由于输入和输出被认为是随机变量,因此损失函数也是一个随机变量。
我想知道为什么我们假设损失的期望值被认为是对随机变量的一个很好的描述?在我的理解中,随机变量的期望值不一定是对它的一个很好的描述。
那么,为什么将风险函数定义为损失函数的期望值呢?
在我的理解中,随机变量的期望值不一定是对它的一个很好的描述。
这取决于您所说的“描述”是什么意思。期望有多种解释,所有这些都可能对您“好”,也可能不“好”。
用频率论者的术语来说,它是数据生成过程的长期平均值。如果你从一个随机变量中提取无限次,观察的平均值将收敛于.
从数学上讲,它是可能结果的加权平均值(即使在连续情况下,如果你眯着眼睛看它)。结果的可能性越大,其权重就越大。
期望也是概率分布的质心。这种描述在更高维度上很有吸引力(您可以将数据视为占据空间中的“斑点”),并且类似于物理学中的质心。
最后,期望是一个位置参数。这意味着分布预期的变化代表分布密度的变化。如果您更改预期值,就好像您正在从图表中选择分布的密度,然后将其放到其他地方,而无需修改其形状。
“不一定是一个好的描述”的批评可能与这样一个事实有关,即在高度偏斜或重尾分布中,实际上很少有观察值接近预期值点。这是有效的,但可能不是我们有幸关心的事情。正如我在下面提到的,我们真的没有其他选择。
我想知道为什么我们假设损失的期望值被认为是对随机变量的一个很好的描述?
这就是它的归结:我们可以计算它,它在大多数情况下都有效,并且没有明确的替代方案。
我对这个话题的直觉:
在 Desion Theory 范围内的统计参数设置中,我们想估计,比如说,以最好的方式,在我们遇到数据之前选择样本数据的函数(统计)。让“最佳”通过损失函数来衡量, 在哪里是估计. 所以是高的差值和零.
现在我们要比较统计数据和. 如果所有样本的损失函数都小于或等于另一个,那么一个显然是赢家。如果不是这样,我们不能说哪个更好。换句话说,可能比在样本空间的某个子集中,但是可能比在另一个子集中。
为了消除对样本空间的依赖,我们可以取平均值。这就是风险函数。
现在,假设好于平均。可能比在某些情况下呢!垫好于对于一些值,但平均而言更糟!
进一步消除对是先验地设置- 这是贝叶斯方法。在这里,我们将“重要性”设置为: 更合理的值更重要,因为它们更有可能在现实中被发现。
简而言之,我认为我们考虑风险函数的方式是因为它消除了对信息的依赖,在一个我们在收集信息之前做出决定的环境中。
作为对@shadowtalker 答案的补充,重要的是要注意有时(就像@shadowtalker 在重尾分布上建议的那样)期望不足以总结随机变量(尽管是一个很好的“描述符”)。在这些情况下,我们可能需要方差、偏度或峰度。
此外,例如,作为中位数的趋势的其他中心度量在非参数统计中非常有用。尽管历史理论首先是为参数统计开发的,但期望值更具吸引力。