对均方根误差和平均偏差偏差的概念理解

机器算法验证 标准差 偏见
2022-03-15 18:01:30

我想对均方根误差 (RMSE) 和平均偏差 (MBD) 有一个概念性的了解。在为我自己的数据比较计算了这些度量之后,我经常困惑地发现 RMSE 很高(例如,100 kg),而 MBD 很低(例如,小于 1%)。

更具体地说,我正在寻找列出和讨论这些措施的数学的参考资料(不是在线的)。通常接受的计算这两个指标的方法是什么,我应该如何在期刊论文中报告它们?

在这篇文章的上下文中,拥有一个可用于描述这两个度量计算的“玩具”数据集将非常有帮助。

例如,假设我要找出一条装配线生产的 200 个小部件的质量(以 kg 为单位)。我还有一个数学模型,可以尝试预测这些小部件的质量。该模型不必是经验的,它可以是基于物理的。我计算了实际测量值和模型之间的 RMSE 和 MBD,发现 RMSE 为 100 kg,MBD 为 1%。这在概念上意味着什么,我将如何解释这个结果?

现在假设我从这个实验的结果中发现 RMSE 是 10 kg,MBD 是 80%。这是什么意思,我能对这个实验说些什么?

这些措施的含义是什么,它们两者(合起来)意味着什么?与 RMSE 一起考虑时,MBD 提供了哪些附加信息?

3个回答

我认为这些概念很容易解释。所以我宁愿在这里描述它。我相信很多基础统计学书籍都涵盖了这一点,包括我的书《内科医生、护士和临床医生的生物统计学基础》。

想象一个中间有靶心的目标。均方误差表示从箭射到目标和中心的平均平方距离。现在,如果您的箭头均匀地散布在中心周围,那么射手就没有瞄准偏差,并且均方误差与方差相同。

但一般来说,箭头可以围绕远离目标的一点散开。箭头到箭头中心的平均平方距离就是方差。这个中心可以看作是射手的瞄准点。从这个射手中心或瞄准点到目标中心的距离是偏差的绝对值。

考虑一个直角三角形,其中斜边的平方是两条边的平方和。所以从箭头到目标的平方距离是箭头到目标点距离的平方和目标中心到目标点之间距离的平方。对所有这些平方距离求平均得到均方误差,即偏差平方和方差之和。

RMSE 是一种衡量我们的预测模型对实际数据有多好的方法,RMSE 越小,模型表现的越好,也就是说,如果我们在一个新数据集(而不是我们的训练集)上测试它,然后再次RMSE 在 0 到 1 的范围内为 0.37,与将 RMSE 为 0.01 作为更好的模型相比,它会导致很多错误。BIAS 用于高估或低估。

据我所知,RMSE 给出了模型和观察到的误差的更准确值,但是 BIAS 除了给出误差值(不如 RMSE 准确),它还可以确定模型是否是正偏差或负偏差,如果模型低估或高估观察值。