损失函数是否一定要添加到观察中?

机器算法验证 机器学习 损失函数
2022-03-31 14:47:58

到目前为止,在我在统计/机器学习中看到的所有损失函数的上下文中,损失函数都是在观察中添加的。即:数据集是观测值处损失的加性聚合:例如,损失是残差平方和的简单和:QDDiDQD(β)=iDQi(β)QD=i(yiXiβ)2

这似乎是明智的,但我想知道:在统计/机器学习中是否存在使用在观察中不可加(甚至不可分离)的损失函数的情况(或理论上可能需要的原因)?

2个回答

损失函数并不总是与观察结果相加:损失函数是估计器(或预测器)和它正在估计(预测)的事物的函数。损失函数通常(但不总是)是距离函数。此外,估计量(预测量)有时但不总是涉及涉及单个观察的项的总和。一般来说,损失函数并不总是具有与观察结果相加的形式。对于预测问题,由于损失函数的形式,会出现与这种形式的偏差。对于估计问题,要么是因为损失函数的形式,要么是因为损失函数中出现的估计量的形式。

要查看预测问题的损失形式的一般性,请考虑我们有观察数据的一般情况y=(y1,...,yn)我们想预测可观察向量y=(yn+1,...,yn+k)使用预测器y^=H(y). 我们可以将这个预测问题的损失写成:

L(y^,y)=L(H(y),y).

您问题中的损失函数是预测向量和观测数据向量之间的欧几里得距离,即L(y^,y)=||y^y||2=i(y^iyi)2. 该特定形式由涉及被预测的观察值的项的总和组成,因此在这种情况下可加性属性成立。但是,还有许多其他损失函数示例会产生不具有这种可加性属性的形式。

观察中不相加的两个损失函数的一个简单示例是,当损失等于最佳预测或最差预测的预测误差时。在“最佳预测损失”的情况下,我们有损失函数L(y^,y)=mini|y^iyi|,并且在“来自更差预测的损失”中,我们有损失函数. 在任何一种情况下,损失函数都不是单个项的加法。L(y^,y)=maxi|y^iyi|

损失函数有两个最常见的原因是总和/平均值。

首先,您可以简单地将损失定义为某个指标的平均值。它与风险最小化的概念有关。

第二个原因是您使用了最大似然法或相关的东西,例如最大后验概率。可加性来自最大似然求解的事实

argmaxθPθ(Dataset)=argmaxθxDatasetPθ(x)

等于

argminθxDatasetlog(Pθ(x)).

例如,如果是高斯分布,您将得到完全均方误差。Pθ