在回归中,有人可以解释一下均方残差和均方误差之间的区别。各有什么意义?
均方残差和均方误差之间的差异
这个问题的答案取决于您如何定义均方误差 (MSE)。
在回归的背景下,一些人将其定义为
其中 p 是回归中的参数数量(包括截距)。请注意,由于残差是,这相当于均方残差 (MSR)。请注意,通常使用此公式,因为它提供了误差方差的无偏估计。
重要的是要注意,在回归的上下文中,残差不是实际误差,它们是随机变量。然而,残差是假设模型下的误差估计,
其中是观测值,是预测值。
我将尝试从统计的角度解释我是如何看待它的。我不认为 MSE 和 MSR 是一回事(但是我猜大多数人不会区分这两者)。
假设您对可以使用回归模型描述的数据进行了模拟。假设您围绕抛物线“随机”生成数据,并且您具有精确的回归函数,因为您确实围绕该函数生成数据。那么“确保”数据不(很可能)直接在抛物线曲线上的“随机”部分实际上是错误的。
但是,在现实中,您通常不知道理论上的回归函数。那么你只能估计这样的回归模型。观测值与您的估计模型之间的差异称为残差。所以可以说残差是对理论误差的某种估计。
希望这可以帮助。
简而言之,均方误差 (MSE) 是 RMSE 的平方。对于线性回归标准方程:Y=a+bX,考虑到 MSE 等于用于拟合线性模型的 X´ 和 Y´ 的实际样本值之间的平方差之和除以配对样本数 (n) .
对于均方残差(MSR),首先要了解线性回归中的最小二乘法。简单地说,这种方法最小化了实际 Y 和估计 Y 之间的平方差之和(残差平方和,SSr),对应于 ∑(YY´)^2。SSr 除以 n-2 等于 MSR。这主要用于分析线性回归的整体显着性,也是确定相关性的重要组成部分。通过确保更少的 MSR,可以比较不同线性回归模型的性能。
根据我的理解,MSR 解释了实际 Y 和从线性回归得出的估计 Y 的离散度(因此考虑了 Ymean),而 MSE 是预测和观察之间的预测误差的直接比较。
均方残差和均方误差之间没有区别。