铰链损失可以定义为对数损失可以定义为
我有以下问题:
铰链损失是否有任何缺点(例如对http://www.unc.edu/~yfliu/papers/rsvm.pdf中提到的异常值敏感)?
与另一种相比,一种的区别,优点,缺点是什么?
铰链损失可以定义为对数损失可以定义为
我有以下问题:
铰链损失是否有任何缺点(例如对http://www.unc.edu/~yfliu/papers/rsvm.pdf中提到的异常值敏感)?
与另一种相比,一种的区别,优点,缺点是什么?
对数损失最小化导致表现良好的概率输出。
铰链损失会导致对偶的一些(不保证)稀疏,但它对概率估计没有帮助。相反,它惩罚错误分类(这就是确定边距如此有用的原因):铰链损失的减少伴随着边际错误分类的减少。
所以,总结一下:
对数损失导致更好的概率估计,但以准确性为代价
铰链损失导致更好的准确性和一些稀疏性,但代价是对概率的敏感性要低得多
@Firebug 有一个很好的答案(+1)。事实上,我在这里也有类似的问题。
我只想补充更多关于逻辑损失的另一大优势:概率解释。一个例子,可以在这里找到
具体来说,逻辑回归是统计学文献中的经典模型。(请参阅“Logistic Regression”这个名称是什么意思?)。有许多与逻辑损失相关的重要概念,例如最大化对数似然估计、似然比检验以及二项式假设。以下是一些相关的讨论。
由于@hxd1011 添加了交叉熵的优势,我将添加它的一个缺点。
交叉熵误差是概率分布之间的许多距离度量之一,但它的一个缺点是,如果对不太可能的事件赋予过多的权重,那么长尾分布的建模效果可能会很差。