我正在处理一个回归预测挑战,其中评估指标是(皮尔逊)相关性。但是,我的印象是这个指标有点武断。虽然我可以保持 RMSE 稳定,但相关性可以有很大的变化。
有人可以解释一下这个指标以及如何优化它吗?
我正在处理一个回归预测挑战,其中评估指标是(皮尔逊)相关性。但是,我的印象是这个指标有点武断。虽然我可以保持 RMSE 稳定,但相关性可以有很大的变化。
有人可以解释一下这个指标以及如何优化它吗?
组织者可能认为预测变化的方向比幅度更重要,也就是说,当已知值很高时(反之亦然)你的预测值比尽可能接近已知值更重要。无论如何,测量结果可能很嘈杂。
一种相当稳健的优化方法是通过网格搜索局部最优值,就像在这个 QA中一样。
但是,您还应该注意,算法在根据某些损失函数进行拟合时会调整内部参数。一些算法接受自定义成本函数和导数,但一些实现 不接受。信息论测量是分类中的标准,而 MSE 是回归中的标准。
从理论上讲,您应该能够根据皮尔逊相关性告诉您的随机森林(或相应的其他算法)最佳分割是什么。