在线性回归中,为什么正则化也会惩罚参数值?

机器算法验证 回归 正则化 超参数
2022-03-10 15:38:59

目前正在学习岭回归,我对更复杂模型的惩罚(或更复杂模型的定义)有点困惑。

据我了解,模型复杂性不一定与多项式阶数相关。所以:是一个比

2+3+4x2+5x3+6x4
5x5

而且我知道正则化的目的是保持模型复杂度低,例如我们有一个五阶多项式

f(x;w)=w0+w1x+w2x2+w3x3+w4x4+w5x5

为 0 的参数越多越好。

但我不明白的是,如果它是同阶多项式,为什么较低的参数值会受到较少的惩罚?那么为什么会:

2+5x+x3
是一个比

433+342x+323x3
它们都是相同的多项式阶,参数值只是简单地依赖于数据。

谢谢!

1个回答

参数值仅取决于数据

这是你问题的关键部分。这就是你感到困惑的地方。

是的,参数值取决于数据。但是当我们拟合模型时,数据是固定的。换句话说,我们拟合了一个以观察为条件的模型。比较适合不同数据集的不同模型的复杂性是没有意义的

在固定数据集的上下文中,模型

2+5x+x3

确实更接近最简单的可能模型,即平零模型,而不是

433+342x+323x3,

无论您的观察规模如何,这都是成立的。

顺便说一句,截距()通常不会受到惩罚,例如,在大多数 Lasso 公式中,因为我们通常擅长让它自由变化以捕获观察的整体平均值。换句话说,我们将模型缩小到观察值的平均值,而不是完全零模型(零通常是任意的)。从这个意义上说,平板和平板模型将被视为同样复杂。24332433