在机器学习(针对回归问题)中,我经常看到均方误差 (MSE) 或均方绝对误差 (MAE) 被用作最小化误差函数(加上正则化项)。我想知道是否存在使用相关系数更合适的情况?如果存在这种情况,那么:
- 与 MSE/MAE 相比,在什么情况下相关系数是更好的指标?
- 在这些情况下,MSE/MAE 仍然是一个很好的代理成本函数吗?
- 是否可以直接最大化相关系数?这是一个稳定的目标函数吗?
我找不到相关系数直接用作优化目标函数的情况。如果人们能向我指出这方面的信息,我将不胜感激。
在机器学习(针对回归问题)中,我经常看到均方误差 (MSE) 或均方绝对误差 (MAE) 被用作最小化误差函数(加上正则化项)。我想知道是否存在使用相关系数更合适的情况?如果存在这种情况,那么:
我找不到相关系数直接用作优化目标函数的情况。如果人们能向我指出这方面的信息,我将不胜感激。
当输出噪声很大时,最大化相关性很有用。换句话说,输入和输出之间的关系非常弱。在这种情况下,最小化 MSE 将使输出接近于零,从而预测误差与训练输出的方差相同。
对于梯度下降方法,直接使用相关性作为目标函数是可能的(只需将其更改为最小化负相关性)。但是,我不知道如何使用 SGD 方法对其进行优化,因为成本函数和梯度涉及所有训练样本的输出。
最大化相关性的另一种方法是通过将输出方差限制为与训练输出方差相同来最小化 MSE。但是,约束也涉及所有输出,因此(在我看来)没有办法利用 SGD 优化器。
编辑:如果神经网络的顶层是线性输出层,我们可以最小化 MSE,然后调整线性层中的权重和偏差以最大化相关性。可以类似于 CCA ( https://en.wikipedia.org/wiki/Canonical_analysis ) 进行调整。
我们在研究中使用了 Pearson 的相关性,并且效果很好。在我们的例子中,它非常稳定。由于它是一种平移和尺度不变测量,它仅在您想预测形状而不是精确值时才有用。因此,如果您不知道您的目标是否在模型的解空间中并且您只对形状感兴趣,这将很有用。相反,MSE 减小了预测和目标之间的平均距离,因此它尽可能地拟合数据。这可能是 MSE 被更广泛使用的原因,因为您通常对预测精确值感兴趣。如果最小化 MSE,则相关性会增加。
我在基于内容的图像检索领域进行了研究,其目标是获得与某种相似性度量相关的嵌入。因此,在这种情况下,您并不关心嵌入之间的距离是否具有特定值(匹配一些任意缩放的相似性距离度量)。您只希望它们相互关联。
在一些实验中,皮尔逊相关损失(keras)被用作成本函数。我不记得有任何训练困难(使用亚当优化器)。
尽管它是分批应用的(而不是在所有输出上),但与 logcosh 成本函数相比,该模型具有改进的相关性(整个测试集的“真实”相关性)。