当 L2 是计算后验损失的良好损失函数时,会有什么例子?

机器算法验证 贝叶斯 教学 决策理论 损失函数
2022-03-24 04:13:42

L2 损失与 L0 和 L1 损失一起,是三个非常常见的“默认”损失函数,用于通过最小后验期望损失对后验进行总结。造成这种情况的一个原因可能是它们相对容易计算(至少对于一维分布),L0 产生众数,L1 产生中位数,L2 产生均值。在教学时,我可以想出 L0 和 L1 是合理损失函数(而不仅仅是“默认”)的场景,但我正在努力解决 L2 是合理损失函数的场景。所以我的问题:

出于教学目的,什么时候 L2 是计算最小后验损失的良好损失函数的例子?

对于 L0,很容易从投注中想出情景。假设您已经计算了即将到来的足球比赛中总进球数的后验,并且您将下注,如果您正确猜到了进球数,您将赢 $$$,否则输。那么L0就是一个合理的损失函数。

我的 L1 示例有点做作。您正在遇到一位朋友,他将到达多个机场之一,然后乘车前往您那里,问题是您不知道哪个机场(并且不能打电话给您的朋友,因为她在空中)。考虑到她可能降落在哪个机场的后部,当她到达时,在哪里放置自己的位置以便她和你之间的距离会很小?在这里,最小化预期 L1 损失的点似乎是合理的,如果简化假设她的汽车将以恒定速度直接行驶到您的位置。也就是说,一小时的等待是等待 30 分钟的两倍。

1个回答
  1. L2 是“容易的”。如果您使用线性回归、SVD 等标准矩阵方法,默认情况下会得到它。在我们拥有计算机之前,L2 是城里唯一解决很多问题的游戏,这就是为什么每个人都使用 ANOVA、t 检验等. 使用 L2 损失和许多更高级的方法(如高斯过程)获得准确答案也比使用其他损失函数获得准确答案更容易。

  2. 相关地,您可以使用二阶泰勒近似精确地获得 L2 损失,这对于大多数损失函数(例如交叉熵)而言并非如此。这使得使用像牛顿法这样的二阶方法的优化变得容易。出于同样的原因,许多处理其他损失函数的方法仍然在底层使用 L2 损失方法(例如,迭代重新加权最小二乘法、集成嵌套拉普拉斯近似)。

  3. L2 与高斯分布密切相关,中心极限定理使高斯分布变得普遍。如果您的数据生成过程(有条件地)是高斯的,那么 L2 是最有效的估计器。

  4. 由于总方差定律,L2 损失分解得很好。这使得某些具有潜在变量的图形模型特别容易拟合。

  5. L2 不成比例地惩罚糟糕的预测。这可能是好的或坏的,但它通常是相当合理的。平均而言,一个小时的等待可能是 30 分钟等待的四倍,如果它导致很多人错过他们的约会。