为什么区分“线性”和“非线性”回归很重要?

机器算法验证 线性模型 非线性回归 非线性
2022-02-27 09:21:23

区分线性和非线性模型的重要性是什么?非线性与广义线性模型的问题:您如何引用逻辑回归、泊松等回归?它的答案是对广义线性模型的线性/非线性的非常有用的澄清。区分线性模型和非线性模型似乎至关重要,但我不清楚为什么?例如,考虑这些回归模型:

(1)E[YX]=β0+β1X(2)E[YX]=β0+β1X+β2X2(3)E[YX]=β0+β12X(4)E[YX]={1+exp([β0+β1X]}1

模型 1 和 2 都是线性的,的解以封闭形式存在,使用标准 OLS 估计器很容易找到。模型 3 和 4 不是这样,它们是非线性的,因为 wrt的(某些)导数仍然是的函数。βE[YX]ββ

在模型 3 中的一个简单解决方案对模型进行线性化,使用线性模型估计,然后计算β1γ=β12γβ1=γ

为了估计模型 4 中的参数,我们可以假设遵循二项分布(指数族的成员),并且利用模型的逻辑形式是规范链接这一事实,对模型的 rhs 进行线性化。这是Nelder 和 Wedderburn 的开创性贡献。Y

但是为什么这种非线性首先是一个问题呢?为什么不能简单地使用一些迭代算法来解决模型 3 而不使用平方根函数进行线性化,或者不调用 GLM 来解决模型 4。我怀疑在广泛的计算能力之前,统计学家试图将一切线性化。如果是真的,那么非线性引入的“问题”也许是过去的残余?非线性模型引入的复杂性仅仅是计算上的,还是存在其他一些理论问题使得非线性模型比线性模型更难以适应数据?

3个回答

我可以看到两个主要区别:

  • 线性使其简单而稳健。例如,(线性)OLS 是未知干扰分布下的无偏估计量。一般来说,GLM 和非线性模型不是。OLS 对于各种误差结构模型(随机效应、聚类等)也很稳健,在非线性模型中,您通常必须假设这些项的精确分布。

  • 解决它很容易:只需几个矩阵乘法 + 1 个逆矩阵。这意味着您几乎总是可以解决它,即使在目标函数几乎是平坦的(多重共线性)的情况下。迭代方法可能不会在这种有问题的情况下收敛(从某种意义上说,这是一件好事。)简单的解决可能会或可能会如今,这不是一个小问题。计算机变得更快,但数据变得更大。曾经尝试过对 1G 观测值进行 logit 回归吗?

除此之外,线性模型更容易解释。在线性模型中,边际效应等于系数并且与 X 值无关(尽管多项式项破坏了这种简单性。)

生物学(和其他领域)中的许多模型都是非线性的,因此最适合非线性回归。当然,数学是非常不同的。但从数据分析师的角度来看,实际上只有一个重要区别。

非线性回归需要每个参数的初始估计值。如果这些初始估计值相差甚远,非线性回归程序可能会收敛到一个错误的最小值,并给出无用或误导性的结果。

首先,我将用“模型”这个词代替“回归”这个词。我认为对于这两个词,一个真正的问题是定义模型的相关方程是什么,以及与因变量的值和方程/模型预测的值相关的相关假设是什么。我认为“模型”这个词更标准。如果您同意这一点,请继续阅读。

我真的把这个答案归功于对一位受过经典训练的概率学家和统计学家的同事的评论的反思。他强烈反对一本将多项式回归称为非线性的书,那是我更认真地阅读非线性模型的时候。我相信正确的答案是线性模型假设误差项是高斯的,而广义线性模型假设误差项具有更广义的形式。如果是任意一组函数,则可以尝试在中构建线性模型。例如,如果,那么我们得到一个多项式回归。如果差值ϕ1,,ϕnϕ1,,ϕnϕi=xiϵi=yiaijxj是高斯的。恕我直言,我认为维基百科对一般线性模型有非常合理的解释。我认为这是关键句——“GLM 通过允许线性模型通过链接函数与响应变量相关联并通过允许每次测量的方差大小成为其预测值的函数来概括线性回归。 " 因此 glm 允许使用更一般的错误术语。这为建模提供了更大的灵活性。价格 ?计算正确的模型更难。人们不再有一种计算系数的简单方法。线性回归的系数可以通过最小化具有唯一最小值的二次函数来找到。用 Borat 的话来说,glm 并没有那么多。必须计算 mle,