线性回归在哪里适合偏差-方差权衡?

机器算法验证 回归 无偏估计器 偏差-方差-权衡
2022-04-15 00:55:08

在 ISL 中,偏差-方差权衡的概念是根据经验法则提出的,即简单模型将具有高偏差,而复杂模型将具有高方差。

鉴于这个想法,我认为线性回归会有很大的偏差,因为它是一个简单的模型,内置了一个巨大的假设(数据是线性的);但是,我也知道 OLS 是一个无偏估计量。

我如何调和这两个事实?

2个回答

OLS 是假设模型为真的无偏估计量,也就是说,

  1. 效果是完全线性的
  2. 包括所有具有非零效应的变量
  3. 包括所有交互
  4. 没有非线性效应

和其他小模型的不足之处。请参阅我在为什么不相关的回归量在大样本中变得具有统计显着性?. 偏差方差分解是(来自 ESL 的第 7.3 节,第二版)

Err(x0)=E[(Yf^(x0)))2X=x0]=σϵ2+[Ef^(x0)f(x0)]2+E[f^(x0)Ef^(x0)]2=σϵ2+Bias2(f^(x0))+Var(f^(x0))=Irreducible Error+Bias2+Variance.
如果您的模型是正确的,Bias2项将为零,但如果模型是近似的,则不会。

线性回归是一个通用术语。使用时, 首先想到的是也是线性回归,即只是我们使用多项式特征。数据(目标)可以是抛物线性质的,但如果您使用多项式特征,它仍然可以通过线性回归进行估计。当您使用与数据相比过于简单的模型时,就会出现高偏差;不是特别是当您使用模型时。y=ax+b+ϵy=ax2+bx+c+ϵx2=x,x1=x2y=ax1+bx2+c+ϵy=ax+b+ϵ

无偏估计器是一个稍微不同的概念。如果一个估计量,比如 变量是无偏的,那么我们有一个非常简单的无偏估计量是均值它也是无偏的,因为如果那么它的期望值将等于平均值​​: . 因此,更不用说 OLS,仅使用均值是一种无偏估计技术。因此,拥有无偏估计器并不意味着您的估计器非常适合您的数据。θ^θE[θ^]=θθ^=μE[θ^]=E[μ]=μ=E[θ]