均方损失函数是回归神经网络的标准。但是,如果我有一个神经网络一次学习两个任务(两个输出),那么训练不同输出的相对误差之和还是两个任务的均方误差之和更可取?
直观地说,均方损失函数有利于期望值较大的任务,因此它对其他任务“不公平”。我倾向于使用相对误差,但将其用作损失函数有什么注意事项吗?
更新:使用相对误差的问题在于它是一个百分比,因此梯度更新将非常小。我认为使用与平均相对误差成比例的误差函数可能更实用,但要进行缩放以使其足够大。
均方损失函数是回归神经网络的标准。但是,如果我有一个神经网络一次学习两个任务(两个输出),那么训练不同输出的相对误差之和还是两个任务的均方误差之和更可取?
直观地说,均方损失函数有利于期望值较大的任务,因此它对其他任务“不公平”。我倾向于使用相对误差,但将其用作损失函数有什么注意事项吗?
更新:使用相对误差的问题在于它是一个百分比,因此梯度更新将非常小。我认为使用与平均相对误差成比例的误差函数可能更实用,但要进行缩放以使其足够大。