假设我有一个模型可以给我预测值。我计算这些值的 RMSE。然后是实际值的标准差。
比较这两个值(方差)是否有意义?我认为,如果 RMSE 和标准偏差相似/相同,那么我的模型的误差/方差与实际情况相同。但是,如果比较这些值甚至没有意义,那么这个结论可能是错误的。如果我的想法是正确的,那么这是否意味着模型尽可能好,因为它无法归因于导致差异的原因?我认为最后一部分可能是错误的,或者至少需要更多信息来回答。
假设我有一个模型可以给我预测值。我计算这些值的 RMSE。然后是实际值的标准差。
比较这两个值(方差)是否有意义?我认为,如果 RMSE 和标准偏差相似/相同,那么我的模型的误差/方差与实际情况相同。但是,如果比较这些值甚至没有意义,那么这个结论可能是错误的。如果我的想法是正确的,那么这是否意味着模型尽可能好,因为它无法归因于导致差异的原因?我认为最后一部分可能是错误的,或者至少需要更多信息来回答。
在没有更好的信息的情况下,目标变量的平均值可以被认为是对目标变量值的简单估计,无论是试图对现有数据建模还是试图预测未来值。这种对目标变量的简单估计(即,预测值都等于目标变量的平均值)会因一定的误差而偏离。测量平均误差的标准方法是标准偏差 (SD),,因为 SD如果目标变量是正态分布的,则具有拟合钟形(高斯)分布的良好特性。因此,SD 可以被认为是目标变量估计中自然发生的误差量。这使其成为任何模型都需要尝试超越的基准。
有多种方法可以测量模型估计的误差;其中,您提到的均方根误差 (RMSE)是最受欢迎。它在概念上与 SD 非常相似:它不是测量实际值与平均值的差距,而是使用基本相同的公式来测量实际值与模型对该值的预测之间的差距。平均而言,一个好的模型应该比所有预测的平均值的朴素估计有更好的预测。因此,变异测量 (RMSE) 应该比 SD 更好地降低随机性。
这个论点适用于其他误差度量,不仅适用于 RMSE,而且 RMSE 对于与 SD 的直接比较特别有吸引力,因为它们的数学公式是类似的。
编辑:
有人离线向我询问支持 SD 作为 RMSE 基准的想法的引文。就个人而言,我首先从 Shmueli 等人那里学到了这个原则。2016. 对不起,我手头没有这本书,所以我不能引用页码。
Shmueli, G., Bruce, PC, Stephens, M., & Patel, NR (2016)。用于业务分析的数据挖掘:使用 JMP Pro (第 3 版)的概念、技术和应用。威利。
如果您谈论的是预测的均方误差,则可以是:
样本方差可以是:
因此,您可以将后一个公式(样本方差)视为前一个(MSE)的特例,其中并且 DF 的损失为 1,因为平均计算是一个估计。
或者,如果你不太关心如何是预测的,但是想要在你的模型上得到一个大概的 MSE,你仍然可以使用下面的公式来估计它,
这是最容易计算的。