为什么我们在拟合模型时通常选择最小化平方误差(SSE)?

机器算法验证 计量经济学 最小二乘
2022-02-04 14:58:13

问题很简单:为什么,当我们尝试将模型拟合到我们的数据(线性或非线性)时,我们通常会尝试最小化误差平方和以获得模型参数的估计量?为什么不选择其他一些目标函数来最小化?我知道,由于技术原因,二次函数比其他一些函数更好,例如绝对偏差之和。但这仍然不是一个很有说服力的答案。除了这个技术原因,为什么人们特别赞成这种“欧几里得类型”的距离函数?对此有特定的含义或解释吗?

我的想法背后的逻辑如下:

当你有一个数据集时,你首先通过一组功能或分布假设来设置你的模型(比如,某个时刻条件,但不是整个分布)。在您的模型中,有一些参数(假设它是参数模型),那么您需要找到一种方法来一致地估计这些参数,并且希望您的估计器具有低方差和其他一些不错的属性。无论您是最小化 SSE 或 LAD 还是其他一些目标函数,我认为它们只是获得一致估计量的不同方法。按照这个逻辑,我认为人们使用最小二乘必须是 1)它产生模型的一致估计 2)我不知道的其他东西。

在计量经济学中,我们知道在线性回归模型中,如果您假设误差项对预测变量的均值条件为 0,并且同方差性和误差彼此不相关,那么最小化平方误差总和将为您提供模型的一致估计参数和高斯马尔可夫定理,这个估计是蓝色的。因此,这表明如果您选择最小化不是 SSE 的其他一些目标函数,则无法保证您将获得模型参数的一致估计。我的理解正确吗?如果它是正确的,那么最小化 SSE 而不是其他一些目标函数可以通过一致性来证明,这是可以接受的,实际上,比说二次函数更好。

在实践中,我实际上看到很多情况下,人们在没有首先明确指定完整模型的情况下直接最小化平方误差之和,例如关于误差项的分布假设(矩假设)。那么在我看来,这种方法的用户只是想看看数据在平方距离函数方面与“模型”的拟合程度(我使用引号,因为模型假设可能不完整)。

一个相关的问题(也与本网站相关)是:为什么当我们尝试使用交叉验证比较不同的模型时,我们再次使用 SSE 作为判断标准?即,选择 SSE 最小的模型?为什么不是另一个标准?

4个回答

虽然您的问题与网站上的许多其他问题相似,但这个问题的各个方面(例如您对一致性的强调)让我认为它们还不够接近重复。

为什么不选择其他一些目标函数来最小化?

为什么不呢?如果你的目标不同于最小二乘,你应该解决你的目标!

然而,最小二乘法有许多很好的特性(尤其是与估计手段的密切联系,这是许多人想要的,并且简单性使其成为教学或尝试实施新想法时的明显首选)。

此外,在许多情况下,人们没有明确的目标函数,因此选择容易获得和广泛理解的东西是有优势的。

也就是说,最小二乘也有一些不太好的属性(例如对异常值的敏感性)——所以有时人们更喜欢更稳健的标准。

最小化平方误差总和将为您提供模型参数的一致估计

最小二乘不是一致性的要求。一致性不是一个非常高的障碍——很多估计器都是一致的。人们在实践中使用的几乎所有估计量都是一致的。

根据高斯-马尔可夫定理,这个估计量是蓝色的。

但是在所有线性估计器都不好的情况下(例如在极端重尾情况下的情况),最好的估计器没有太多优势。

如果您选择最小化其他不是 SSE 的目标函数,则无法保证您将获得模型参数的一致估计。我的理解正确吗?

找到一致的估计器并不难,所以不,这不是最小二乘的特别好的理由

为什么当我们尝试使用交叉验证比较不同的模型时,我们再次使用 SSE 作为判断标准?[...] 为什么不是其他标准?

如果您的目标可以通过其他方式更好地反映,那为什么不呢?

不乏使用除最小二乘之外的其他目标函数的人。它出现在 M 估计、最小修剪估计量、分位数回归以及人们使用 LINEX 损失函数时,仅举几例。

在想当你有一个数据集时,你首先建立你的模型,即做出一组功能或分布假设。在您的模型中,有一些参数(假设它是参数模型),

大概功能假设的参数是您要估计的 - 在这种情况下,功能假设是您在 周围做最小二乘(或其他任何东西)东西;他们没有确定标准,他们是标准所估计的。

另一方面,如果你有一个分布假设,那么你就有很多关于更合适的目标函数的信息——例如,你可能想要对你的参数进行有效的估计——这在大样本中会往往会引导你走向 MLE,(尽管在某些情况下可能嵌入到一个健壮的框架中)。

那么你需要找到一种方法来一致地估计这些参数。无论您是最小化 SSE 或 LAD 还是其他一些目标函数,

LAD 是一个分位数估计器。它是它应该在预期的条件下估计的参数的一致估计量,就像最小二乘法一样。(如果你看一下你用最小二乘法显示的一致性,许多其他常见的估计量都有相应的结果。人们很少使用不一致的估计量,所以如果你看到一个估计量被广泛讨论,除非他们在谈论它的不一致性,它几乎当然一致。*)

* 也就是说,一致性不一定是基本属性。毕竟,对于我的样本,我有一些特定的样本量,而不是一系列趋于无穷大的样本量。重要的是我拥有的处的属性,而不是我没有也永远不会看到的无限大的但是当我们有不一致时需要更加小心——我们可能在 = 2000时它可能很糟糕从某种意义上说,如果我们想当然地使用不一致的估计器,则需要付出更多的努力。nnnn

如果您使用 LAD 来估计指数的平均值,那么它不会是一致的(尽管它的估计的一个微不足道的比例会是) - 但同样的道理,如果您使用最小二乘法来估计指数的中位数,它不会是一致的(同样,一个微不足道的重新调整解决了这个问题)。

您问了一个统计问题,我希望我的控制系统工程师的回答是从足够不同的方向进行的尝试,以提供启发。

这是控制系统工程的“规范”信息流形式: 在此处输入图像描述

“r”为参考值。它与输出“y”的“F”变换相加,产生错误“e”。该误差是控制器的输入,由控制传递函数“C”转换为设备“P”的控制输入。它意味着足够普遍以适用于任意植物。“工厂”可以是用于巡航控制的汽车发动机,也可以是反摆的输入角度。

假设您有一个具有已知传递函数的工厂,该工厂具有适合以下讨论的现象学、当前状态和所需的最终状态。(表 2.1 pp68 ) 系统有无数条独特的路径,具有不同的输入,可以遍历从初始状态到最终状态。教科书控制工程师“最优方法”包括时间最优(最短时间/bang-bang)、距离最优(最短路径)、力最优(最小最大输入幅度)和能量最优(最小总能量输入)。

就像有无数条路径一样,也有无数条“最优”——每条路径都选择其中一条。如果您选择一条路径并说它是最好的,那么您就隐含地选择了“良好的衡量标准”或“最优的衡量标准”。

在我个人看来,我认为人们喜欢 L-2 范数(又名能量最优,又名最小二乘误差),因为它简单、易于解释、易于执行,具有比较小错误做更多工作以应对更大错误的特性,并以零偏差离开。考虑方差最小且偏差受约束但不为零的 h 无穷范数。它们可能非常有用,但描述起来更复杂,编码也更复杂。

我认为 L2 范数,也就是能量最小化最优路径,也就是最小二乘误差拟合,很容易,并且在懒惰的意义上符合“更大的错误更糟糕,更小的错误更不糟糕”的启发式。从字面上看,有无数种算法方法来表达这一点,但平方误差是最方便的方法之一。它只需要代数,所以更多的人可以理解它。它适用于(流行的)多项式空间。能量最优与构成我们感知世界的大部分物理学相一致,因此它“感觉很熟悉”。它的计算速度相当快,而且在内存上也不会太糟糕。

如果我有更多时间,我想放图片、代码或参考书目。

我认为,在拟合模型时,我们通常选择最小化误差平方和( ),因为直接(负)关系,这是一个主要的拟合优度 (GoF) 统计量对于模型,如下(SSESSER2SST总平方和):

R2=1SSESST

省略了为什么调整的讨论R2由于对样本大小和系数数量的校正(参见thisthis ),是一个更好(无偏)的GoF统计数据,在我看来,这种联系很重要,因为R2统计系列是表示拟合相对测量绝对测量的统计系列,例如均方根误差(RMSE)。

此外,事实上R2等于因变量的方差百分比可以由所有自变量一起解释,使得R2因此,间接地,SSE,模型的解释力(或预测力)的度量。事实上,对于预测模型,有些人建议使用类似于SSE统计量 - 预测的残差平方和(PRESS)。有关详细信息,请参阅本文末尾的这篇文章这篇文章,它们与您的问题相关。

总结并回答您的主要问题,我认为我们通常会最小化 SSE,因为它相当于最大化所讨论的统计模型的 解释或预测能力

附带说明:

当考虑到目标变量 t 的值的不确定性时,我们可以将 t 的概率分布表示为

p(t|x,w,β)=N(t|y(x,w),β1)
假设 t 遵循多项式 y 上的高斯条件。使用训练数据{x,t}模型参数的可能性w是(谁)给的
p(t|x,w,β)=n=1NN(tn|y(xn,w),β1).
最大化表单的对数似然
β2n=1N{y(xn,w)tn}2+N2lnβN2ln(2π)
与最小化负对数似然相同。我们放弃了第二个和第三个学期,因为它们在w. 还有比例因子β可以删除第一项,因为常数因子不会改变最大值/最小值的位置,让我们
12n=1N{y(xn,w)tn}2.
因此,SSE 是在假设高斯噪声分布​​的情况下最大化似然性的结果。