问题很简单:为什么,当我们尝试将模型拟合到我们的数据(线性或非线性)时,我们通常会尝试最小化误差平方和以获得模型参数的估计量?为什么不选择其他一些目标函数来最小化?我知道,由于技术原因,二次函数比其他一些函数更好,例如绝对偏差之和。但这仍然不是一个很有说服力的答案。除了这个技术原因,为什么人们特别赞成这种“欧几里得类型”的距离函数?对此有特定的含义或解释吗?
我的想法背后的逻辑如下:
当你有一个数据集时,你首先通过一组功能或分布假设来设置你的模型(比如,某个时刻条件,但不是整个分布)。在您的模型中,有一些参数(假设它是参数模型),那么您需要找到一种方法来一致地估计这些参数,并且希望您的估计器具有低方差和其他一些不错的属性。无论您是最小化 SSE 或 LAD 还是其他一些目标函数,我认为它们只是获得一致估计量的不同方法。按照这个逻辑,我认为人们使用最小二乘必须是 1)它产生模型的一致估计 2)我不知道的其他东西。
在计量经济学中,我们知道在线性回归模型中,如果您假设误差项对预测变量的均值条件为 0,并且同方差性和误差彼此不相关,那么最小化平方误差总和将为您提供模型的一致估计参数和高斯马尔可夫定理,这个估计是蓝色的。因此,这表明如果您选择最小化不是 SSE 的其他一些目标函数,则无法保证您将获得模型参数的一致估计。我的理解正确吗?如果它是正确的,那么最小化 SSE 而不是其他一些目标函数可以通过一致性来证明,这是可以接受的,实际上,比说二次函数更好。
在实践中,我实际上看到很多情况下,人们在没有首先明确指定完整模型的情况下直接最小化平方误差之和,例如关于误差项的分布假设(矩假设)。那么在我看来,这种方法的用户只是想看看数据在平方距离函数方面与“模型”的拟合程度(我使用引号,因为模型假设可能不完整)。
一个相关的问题(也与本网站相关)是:为什么当我们尝试使用交叉验证比较不同的模型时,我们再次使用 SSE 作为判断标准?即,选择 SSE 最小的模型?为什么不是另一个标准?