RMSE 与 R 平方

数据挖掘 机器学习 回归 公制
2022-02-28 02:00:03

问题:哪个是比较不同模型 RMSE 或 R-squared 的更好指标?

我搜索了一下,通常所有的博客都说这两个指标解释了一个不同的想法,R-squared 是衡量模型解释多少方差的量度,而 RMSE 给你平均误差的提示。

我的回答:我认为 RMSE 可以用来比较训练误差和验证误差,基本上可以判断模型是否过拟合。这也将说明两个模型在未见数据上的表现如何,但 R-squared 仅表示有关模型拟合的信息,它没有提供有关模型将如何在未见数据上执行的信息。

因此,如果您担心模型将如何执行未见或测试数据,则 RMSE 比 R-squared 更好。

我的回答正确吗?

(注意:如果您知道 R-squared 优于 RMSE 的任何场景,请加分)

3个回答

看方程。两者都是均方误差的函数。任何模型在一个上的表现优于另一个模型。我看到的危险在于它使我们处于考虑学校成绩的位置,但是对于某些模型可能非常出色,而R可能是相当行人的。此外,在非线性情况下失去了“解释的可变性比例”解释(甚至在我们做普通最小二乘以外的一些线性情况时):https ://stats.stackexchange.com/questions/494274/why -does-regularization-wreck-orthogonality-of-predictions-and-residuals-in-lineR2FR2=0.4AR2=0.95R2.

SSResiduals=i=1n(yiy^i)2RMSE=MSE=SSResidualsnR2=1SSResidualsSSTotal=1n×MSESSTotal=1n×(RMSE)2SSTotal

是数据集的属性,而不是模型的属性,因此它基本上是一个比例因子。)SSTotal=i=1n(yiy¯)2

因此,较小的与较大的是同义的。但是,不会诱使您根据学校的字母等级进行思考。RMSER2RMSE

您的解释是正确的,尽管我不会说一个比另一个“更好”。它们都有不同的用途。

我通常在构建模型后检查的第一个指标是 MAPE。所以我可以感觉到那里相对于实际预测的相对误差。虽然 MAPE 的问题是,如果您的预测中的异常值很少,那么您的 MAPE 值将会受到影响。RMSE 也存在这个问题,可以使用 RMSLE(均方根对数误差)来消除。

关键是:每个错误估计器都会有一些正面和负面的,你需要根据你的问题陈述来决定最好的一个。

如果您在测试集上计算了 RMSE,那么它将是一个更好的指标,用于评估您的模型在预测未来观察结果方面的表现,即估计未见观察结果的准确性。

正如您所说,R平方是您的模型拟合解释的训练集中方差的比例。因此,这两个指标之间的关键区别是:RMSE 通常是根据测试数据计算的,而 R 平方是根据训练数据计算的。