均方误差与最小二乘误差,比较数据集是哪一个?

机器算法验证 最小二乘 平方和
2022-03-13 14:37:28

我有相同系统的 3 个数据集。但对于第一个,我有 21 个测量值。对于第二个和第三个,我只有 9 个测量值。现在我使用这 3 个数据集制作了一个模型(所以 3 个模型,每个数据集 1 个)。当我想比较这两个数据集之间的误差时。使用 MSE 代替 LSE(最小二乘误差)是否有明显的优势。在互联网上,我没有找到明确的答案。主要优点是什么?

3个回答

我认为您对如何从数据构建模型以及如何在构建模型后量化模型准确性感到困惑。

当你想建立一个模型(我猜你的情况是线性回归?)时,你通常会使用最小二乘误差方法来最小化一条线和数据点之间的“总”欧几里得距离。理论上这条线的系数可以使用微积分找到,但在实践中,算法将执行更快的梯度下降。

一旦你有了你的模型,你就想评估它的性能。因此,在回归的情况下,最好计算一个度量标准来评估您的模型与实际数据点(或测试集数据,如果有的话)的平均距离。MSE 是一个很好的估计,您可能想要使用!

总而言之,请记住,LSE 是一种构建模型的方法,而 MSE 是一种评估模型性能的指标。

MSE(均方误差)是均方误差,即估计器与估计器之间的差异。MMSE(最小均方误差)是最小化 MSE 的估计量。因此,LSE 和 MMSE 具有可比性,因为它们都是估计量。正如 Anil 所指出的那样,LSE 和 MSE 不具有可比性。理论上,MMSE 和 LSE 之间存在一些重要差异。
MMSE 对过程的所有实现都是最优的,而 LSE 对给定数据本身是最优的。这是因为 MMSE 使用整体平均(期望),而 LSE 使用时间平均。

它的实际含义是: 1. 对于 MMSE,您需要知道数据的二阶统计属性(互相关和自相关),而对于 LSE,您只需要数据。自相关和互相关在计算上是昂贵的,准确的计算需要大量的数据点/实验。2. MMSE 系数对于过程是最优的,因此它对于过程的所有数据集都是最优的,而 LSE 只对特定数据集是最优的。如果数据集发生变化,LSE 系数将不会保持最佳状态。

另请注意,如果过程是遍历的并且数据点的数量接近无穷大,则 MMSE 接近 LSE。

我相信 Anil Narassiguin 目前的第一个答案具有误导性。它在底部说:“LSE 是一种构建模型的方法,而 MSE 是一种评估模型性能的指标。”

这是不正确的。基本上,它们都是损失/成本函数两者都在迭代时计算当前预测的误差,以便优化权重。

但是,LSE 用于分类问题,而 MSE 用于回归问题。我相信这是这两者之间的主要区别,所以你需要弄清楚你有什么样的问题,分类回归。