你混淆了两个概念。在您的输出具有多个维度的示例中,您必须有某种方法来测量您的预测错过真实值的距离;叫这些di. 损失函数将是所有di价值观。您可以随意使用绝对差值、平方差值或以任意顺序混合两者。
例如,让真值是{(1,2,1),(2,5,0),(−2,3,3)}并且预测是{(4,1,1),(2,4,1),(0,4,2)}.
首先,计算点对之间的距离,使用一些你觉得有趣的距离,例如L1或者L2.
d1,L1((1,2,1),(4,1,1))=|1−4|+|2−1|+|1−1|=4d1,L2((1,2,1),(4,1,1))=(1−4)2+(2−1)2+(1−1)2−−−−−−−−−−−−−−−−−−−−−−−√=10−−√
在这个多元设置中,这些距离值类似于简单线性回归中的残差,因此将这些“残差”保留在损失函数中。你可以选择平方所有的di值(对于任何一个L1或者L2,添加这些平方值,并取平方根(平方损失),或者您可以选择取那些的绝对值di值并添加这些绝对值。你可以用L1或者L2上一步中的距离(或其他距离)。
解决“损失”与“成本”功能,这些术语是松散的。将您在模型训练中旨在优化的功能与考虑错误后果的损益区分开来是公平的,例如对您错误诊断的患者进行不必要的治疗并导致他们不得不烦恼去药房与拒绝对患有疾病的患者进行挽救生命的治疗,但您错过了。您在模型训练中旨在优化的功能(很可能)是交叉熵损失(在某些圈子中为“对数损失”),然后您对误诊的相对成本的印象稍后会发挥作用。
根据您的参考,人们不会与他们所称的内容保持一致,有些人甚至会讨论“目标”功能。