铰链损失与逻辑损失的优缺点/限制

机器算法验证 机器学习 支持向量机 损失函数 计算机视觉
2022-01-20 01:49:15

铰链损失可以定义为max(0,1yiwTxi)对数损失可以定义为log(1+exp(yiwTxi))

我有以下问题:

  1. 铰链损失是否有任何缺点(例如对http://www.unc.edu/~yfliu/papers/rsvm.pdf中提到的异常值敏感)?

  2. 与另一种相比,一种的区别,优点,缺点是什么?

3个回答

对数损失最小化导致表现良好的概率输出。

铰链损失会导致对偶的一些(不保证)稀疏,但它对概率估计没有帮助。相反,它惩罚错误分类(这就是确定边距如此有用的原因):铰链损失的减少伴随着边际错误分类的减少。

所以,总结一下:

  • 对数损失导致更好的概率估计,但以准确性为代价

  • 铰链损失导致更好的准确性和一些稀疏性,但代价是对概率的敏感性要低得多

@Firebug 有一个很好的答案(+1)。事实上,我在这里也有类似的问题。

在分类中选择不同的损失函数来近似0-1损失有什么影响

我只想补充更多关于逻辑损失的另一大优势:概率解释。一个例子,可以在这里找到

具体来说,逻辑回归是统计学文献中的经典模型。(请参阅“Logistic Regression”这个名称是什么意思?)。有许多与逻辑损失相关的重要概念,例如最大化对数似然估计、似然比检验以及二项式假设。以下是一些相关的讨论。

R中的似然比检验

为什么逻辑回归不称为逻辑分类?

逻辑回归是否有独立同分布假设?

logit 和 probit 模型之间的区别

由于@hxd1011 添加了交叉熵的优势,我将添加它的一个缺点。

交叉熵误差是概率分布之间的许多距离度量之一,但它的一个缺点是,如果对不太可能的事件赋予过多的权重,那么长尾分布的建模效果可能会很差。