为什么多项式回归被认为是多元线性回归的特例?

机器算法验证 回归 多重回归 线性模型 非线性回归 多项式
2022-01-31 10:44:04

如果多项式回归对非线性关系建模,如何将其视为多元线性回归的特例?

维基百科指出,“虽然多项式回归拟合数据的非线性模型,但作为一个统计估计问题,它是线性的,在回归函数的意义上E(y|x)在从数据估计的未知参数中是线性的。”

如果参数是具有顺序的项的系数,则多项式回归在未知参数中如何线性2?

3个回答

当您拟合回归模型时,例如y^i=β^0+β^1xi+β^2xi2,模型和 OLS 估计器并不“知道”xi2只是平方xi,它只是“认为”它是另一个变量。当然存在一些共线性,并且会被纳入拟合(例如,标准误差比它们可能的更大),但是许多变量对可能有些共线,而其中一个变量不是另一个变量的函数。

我们不承认模型中确实有两个独立的变量,因为我们知道xi2最终是相同的变量xi为了捕捉两者之间的曲线关系,我们对其进行了转换和包含xiyi. 那种对真实本性的认识xi2,再加上我们相信两者之间存在曲线关系xiyi是什么让我们难以从模型的角度理解它仍然是线性的方式。此外,我们可视化xixi2通过查看 3D 函数在 2D 上的边缘投影x,y飞机。

如果你只有xixi2,您可以尝试在完整的 3D 空间中可视化它们(尽管仍然很难真正看到发生了什么)。如果您确实在完整的 3D 空间中查看了拟合函数,您会看到拟合函数是一个 2D 平面,而且它是一个平面。正如我所说,很难看清楚,因为xi,xi2数据只存在于穿过该 3D 空间的曲线上(这一事实是它们共线性的视觉表现)。我们可以在这里尝试这样做。想象一下这是拟合模型:

x     = seq(from=0, to=10, by=.5)
x2    = x**2
y     = 3 + x - .05*x2
d.mat = data.frame(X1=x, X2=x2, Y=y)

# 2D plot
plot(x, y, pch=1, ylim=c(0,11), col="red", 
     main="Marginal projection onto the 2D X,Y plane")
lines(x, y, col="lightblue")

在此处输入图像描述

# 3D plot
library(scatterplot3d)
s = scatterplot3d(x=d.mat$X1, y=d.mat$X2, z=d.mat$Y, color="gray", pch=1, 
              xlab="X1", ylab="X2", zlab="Y", xlim=c(0, 11), ylim=c(0,101), 
              zlim=c(0, 11), type="h", main="In pseudo-3D space")
s$points(x=d.mat$X1, y=d.mat$X2, z=d.mat$Y, col="red", pch=1)
s$plane3d(Intercept=3, x.coef=1, y.coef=-.05, col="lightblue")

在此处输入图像描述

在这些图像中可能更容易看到,这些图像是使用该rgl软件包使用相同数据制作的旋转 3D 图形的屏幕截图。

在此处输入图像描述

当我们说“参数线性”的模型确实是线性的时,这不仅仅是一些数学诡辩。p变量,你正在拟合pa中的一维超平面p+1维超空间(在我们的示例中是 3D 空间中的 2D 平面)。那个超平面真的是“平面”/“线性”;这不仅仅是一个比喻。

因此,一般线性模型是在未知参数中线性的函数。多项式回归,例如y=a+bx+cx2是二次函数x但在系数中是线性的a,bc. 更一般地,一般线性模型可以表示为y=i=0Naihi(x), 其中hi是向量输入的任意函数x - 看到hi可以包括任何交互项(组件之间的x) 之类的。

考虑一个模型

yi=b0+b1xin1++bpxinp+ϵi.

这可以重写

y=Xb+ϵ;X=(1x1n1x1np1x2n1x2np1xnn1xnnp).