到目前为止,在我在统计/机器学习中看到的所有损失函数的上下文中,损失函数都是在观察中添加的。即:数据集是观测值处损失的加性聚合:。例如,损失是残差平方和的简单和:。
这似乎是明智的,但我想知道:在统计/机器学习中是否存在使用在观察中不可加(甚至不可分离)的损失函数的情况(或理论上可能需要的原因)?
到目前为止,在我在统计/机器学习中看到的所有损失函数的上下文中,损失函数都是在观察中添加的。即:数据集是观测值处损失的加性聚合:。例如,损失是残差平方和的简单和:。
这似乎是明智的,但我想知道:在统计/机器学习中是否存在使用在观察中不可加(甚至不可分离)的损失函数的情况(或理论上可能需要的原因)?
损失函数并不总是与观察结果相加:损失函数是估计器(或预测器)和它正在估计(预测)的事物的函数。损失函数通常(但不总是)是距离函数。此外,估计量(预测量)有时但不总是涉及涉及单个观察的项的总和。一般来说,损失函数并不总是具有与观察结果相加的形式。对于预测问题,由于损失函数的形式,会出现与这种形式的偏差。对于估计问题,要么是因为损失函数的形式,要么是因为损失函数中出现的估计量的形式。
要查看预测问题的损失形式的一般性,请考虑我们有观察数据的一般情况我们想预测可观察向量使用预测器. 我们可以将这个预测问题的损失写成:
您问题中的损失函数是预测向量和观测数据向量之间的欧几里得距离,即. 该特定形式由涉及被预测的观察值的项的总和组成,因此在这种情况下可加性属性成立。但是,还有许多其他损失函数示例会产生不具有这种可加性属性的形式。
观察中不相加的两个损失函数的一个简单示例是,当损失等于最佳预测或最差预测的预测误差时。在“最佳预测损失”的情况下,我们有损失函数,并且在“来自更差预测的损失”中,我们有损失函数. 在任何一种情况下,损失函数都不是单个项的加法。