在 Ian Goodfellow 的《深度学习》一书中,写道
有时,我们真正关心的损失函数(比如分类错误)并不是可以有效优化的。例如,精确地最小化预期的 0-1 损失通常是难以处理的(输入维度中的指数),即使对于线性分类器也是如此。在这种情况下,通常会优化替代损失函数,它充当代理但具有优势。
为什么 0-1 损失难以处理,或者它在输入维度上如何呈指数增长?
在 Ian Goodfellow 的《深度学习》一书中,写道
有时,我们真正关心的损失函数(比如分类错误)并不是可以有效优化的。例如,精确地最小化预期的 0-1 损失通常是难以处理的(输入维度中的指数),即使对于线性分类器也是如此。在这种情况下,通常会优化替代损失函数,它充当代理但具有优势。
为什么 0-1 损失难以处理,或者它在输入维度上如何呈指数增长?
0-1损失函数是非凸的和不连续的,所以不能应用(子)梯度方法。对于带有线性分隔符的二元分类,这个损失函数可以表述为找到使指标函数在所有个样本上。这是输入的指数,因为每对有两个可能的值,所以有种可能的配置来检查总样本点。这被认为是 NP 难的。知道你的损失函数的当前值并不能提供任何关于你应该如何修改你当前的解决方案来改进的线索,因为你可以推导出凸函数或连续函数的梯度方法是否可用。
分类错误实际上有时是易于处理的。使用 Nelder-Mead 方法可以有效地优化它——尽管不完全如此,如本文所示:
https://www.computer.org/csdl/trans/tp/1994/04/i0420-abs.html
“降维是将多维向量转换为低维空间的过程。在模式识别中,通常希望在不显着丢失分类信息的情况下执行此任务。贝叶斯错误是此目的的理想标准;但是,众所周知,数学处理非常困难。因此,在实践中使用了次优标准。我们提出了一个替代标准,基于贝叶斯误差的估计,希望比目前使用的标准更接近最优标准. 设计并实现了一种基于此准则的线性降维算法。实验表明,与传统算法相比,它具有优越的性能。
这里提到的贝叶斯错误基本上就是0-1的损失。
这项工作是在线性降维的背景下完成的。我不知道它对训练深度学习网络的效果如何。但关键是,问题的答案是:0-1 损失并不是普遍难以解决的。对于至少某些类型的模型,它可以相对较好地优化。