RMSE 与确定系数

机器算法验证 错误
2022-02-14 07:01:28

我正在评估一个物理模型,并想知道我应该在这里使用哪种方法(在 RMSE 和确定系数 R2 之间)

问题如下:我有一个函数输出输入值 x,的预测。的那个值进行了实际观察yx¯=f(x)yx

的优缺点是什么我已经看到它们都被用于我正在研究的问题的论文中。R2

4个回答

这两个我都用过,有几点要说。

  • rmse 很有用,因为它很容易解释。每个人都知道它是什么。
  • rmse 不显示相对值。如果,您必须明确知道范围如果,那么 0.2 是一个不错的值。如果,它似乎不再那么好。rmse=0.2α<yx<βα=1,β=1000α=0,β=1
  • 与前面的方法一致,rmse 是一种很好的方法来隐藏您调查的人或您进行的测量大多是一致的(每个人都给产品打了 3 星),并且您的结果看起来不错,因为数据帮助了您。如果数据有点随机,您会发现您的模型绕木星运行。
  • 使用调整后的决定系数,而不是普通的R2
  • 决定系数很难解释。即使是该领域的人也需要一个脚注提示,如 \footnote{调整后的决定系数是数据集中可以通过统计模型解释的可变性比例。该值显示模型对未来结果的预测程度。可以取 0 为最小值, 1 为最大值。}R2
  • 然而,确定系数在说明您的模型对现象的解释程度方面非常精确。如果,无论值如何,您的模型都不好。我相信一个好的模型的临界点从 0.6 开始,如果你有 0.7-0.8 左右的东西,你的模型就是一个非常好的模型。R2=0.2yx
  • 回顾一下,表示,使用您的模型,您可以解释真实数据中 70% 的情况。剩下的 30% 是你不知道也无法解释的。这可能是因为存在混杂因素,或者您在构建模型时犯了一些错误。R2=0.7
  • 在计算机科学中,几乎每个人都使用 rmse。社会科学更频繁地R2
  • 如果您不需要证明模型中的参数,只需使用 rmse。但是,如果您在构建模型时需要放入、删除或更改参数,则需要使用来表明这些参数可以最好地解释数据。R2
  • 如果您将使用,请使用 R 语言编写代码。它有库,你只需给它数据就可以得到所有结果。R2

对于一个有抱负的计算机科学家来说,写关于统计的文章是令人兴奋的。敬上。

无论您给出什么错误测量值,请考虑在附录中给出完整的结果向量。喜欢与您的方法进行比较但更喜欢另一种误差测量的人可以从您的表中得出这样的值。

R2 :

  • 不反映系统误差。想象一下,您测量的是直径而不是圆形物体的半径。您的预期高估为 100 %,但仍可以达到接近 1R2

  • 不同意之前的评论,难以理解。值越高,模型越精确,但它可能包含系统误差。R2

  • 可以用易于理解的公式表示,在该公式中,您构建残差平方和的比率并除以总平方和 (TSS):

R2=1SSETSS=1(yiyi^)2(yiy¯)2

此公式的比率也可以解释为模型解释的方差与数据方差的比值。

  • 应该用更高级的版本来表达。在这里,更多的预测因子会惩罚模型。预计对过度拟合更加稳健。Radj.2

RMSE

  • 只有同时具有高精度(单个但较大的异常值会受到严重惩罚)并且没有系统误差,您才能达到低因此,在某种程度上,低保证比高更好的质量。RMSERMSER2

  • 这个数字有一个单位,不熟悉你的数据的人不容易解释。例如,它可以与数据的平均值相除以产生小心,这不是有些人更喜欢除以他们的数据范围,而不是除以平均值。rel.RMSErel.RMSE

正如其他人提到的,选择可能取决于您的领域和最先进的技术。是否也有一种被广泛接受的比较方法?使用与他们相同的测量方法,您可以在讨论中轻松地将您的方法优势直接联系起来。

均方根误差 (RMSE)决定系数 ( )R2提供了不同但互补的信息,在评估您的物理模型时应该评估这些信息。两者都不是“更好”,但根据特定应用程序,一些报告可能更多地关注一个指标。

我将使用以下内容作为理解这两个指标之间差异的非常通用的指南:

RMSE让您了解您的预测值与您尝试建模的实际数据之间的距离(或远近)这在您希望了解模型预测的准确性和精确度(例如,建模树的高度)的各种应用程序中非常有用。

优点

  1. 由于报告值与被建模的因变量采用相同的单位,因此相对容易理解和交流。

缺点

  1. 它对大误差很敏感(比较小的预测误差更能惩罚大的预测误差)。

您试图了解您选择的自变量如何解释因变量的可变性时,决定系数 ( )很有用。R2当您试图解释哪些因素可能推动感兴趣的潜在过程(例如,与树高相关的气候变量和土壤条件)时,这很有用。

优点

  1. 总体了解您选择的变量与数据的拟合程度。

缺点

  1. 随着更多自变量添加到您的模型中,会增加(请参阅adj.Akaike 的信息标准作为潜在的替代方案)。R2R2

当然,以上内容会受到样本量和抽样设计的影响,一般理解相关并不意味着因果关系。

还有 MAE,平均绝对误差。与 RMSE 不同,它对大错误并不过分敏感。根据我的阅读,一些领域更喜欢 RMSE,另一些更喜欢 MAE。我喜欢两者都用。