为什么我们不考虑线性回归模型参数的非线性估计?

机器算法验证 回归 线性模型
2022-03-31 00:20:26

高斯-马尔可夫定理告诉我们,普通最小二乘 (OLS) 估计器是线性回归中系数的最佳线性无偏估计器 (BLUE)(给定一些误差条件)。我可以理解为什么我们需要一个无偏且最小方差(“最佳”)的估计器,但为什么是线性的?为什么不依赖于数据的任何其他幂(平方、平方根等)的估计器?

更具体地说,对于在模型中预测响应向量数据矩阵的 OLS 估计量为n×mXn×1yy=βX+ϵβ

β^=(XTX)1XTy=Cy.

因此,每个可以根据线性定义,如β^jyi

β^j=cj0y0+cj1y1+cj2y2+,

因此是一个线性估计量。是否有特殊原因我们不考虑非线性估计器,例如,形式的,

β~j=Cya=cj0y0a+cj1y1a+cj2y2a+

3个回答

在数学中,很少有事物以教科书中呈现的方式发展。这才是真正的原因。这是解释。

首先,有人想出了一个适合的问题,即在某些方面找到“最好的”参数集这样做的人并不认为解决方案是的线性组合。他只是简单地考虑了选择“最佳”解决方案的标准是什么,并提出了最小化误差平方和对于很多人来说,这是一个非常合理的标准。于是,他继续制定优化问题:

y=Xβ+ε
βyεε
minβεε=minβ(yXβ)(yXβ)

当这家伙解决问题时,他惊讶地发现解决方案竟然是的线性组合: y

(XX)1Xy

他不是在寻找蓝色或线性的解决方案。他只是在寻找最小二乘问题的解决方案。然后他的朋友们开始从不同的角度研究这个解决方案,并提出了高斯-马尔可夫定理、BLUE等。

在这一切完成之后,今天人们会看到各种“最佳”解决方案标准的公式,它们不再是简单的平方误差之和。有些人还想要“小”,这导致各种不再是蓝色或线性的收缩方法,等等。β

我非常喜欢你的问题,因为它区分了自变量的线性模型规范以及解决方案是因变量的线性组合这一事实。为了从后者到前者,需要特殊的拟合优度标准,例如平方和的最小值。其他拟合优度标准可能会导致非线性(在上)解决方案。XβCyy

当误差项不是高斯项时,通常情况下最佳估计量(例如,就 MSE 而言)不是线性的。

在某些情况下,所有线性估计器都可能非常糟糕。(当即使是最好的线性估计器也可能很糟糕时,对于成为 BLUE 的所有大惊小怪并不总是那么清楚。)

因此,例如,如果因变量的条件分布的尾部变得越来越重,那么您需要对更远的值赋予越来越少的权重,或者参数估计的方差可以增加到超出任何范围。

[不过,非线性估计器不仅包括幂。]

问题是你如何找到您实际上是如何得出 OLS 的?你根据某个参数进行微分,得到一组方程,然后求解。如果在模型方程中不是线性的,则解将不是的线性组合。(它也可能不是的变换的线性组合——这就是你的是什么)它可能没有紧密的形式,只能用数字来近似。ββYYβ~

接下来 - 你如何证明你的估算器是最好的(即 BLUE)?期望的线性和方差的线性运算 - 通常需要说明估计量。您通常需要使用期望线性度来证明估计量是无偏的,并且您需要对方差使用线性运算来证明它是最小的。这就是高斯-马尔可夫定理所做的。但是,如果您的模型在参数上不是线性的,则估计器在中将不是线性的,因此您很可能无法使用这些。Y

所以,并不是你不考虑非线性模型——只是你需要一种方法来实现。找到估计量,b。显示它很好。