机器算法验证 - 在线性回归中，为什么正则化也会惩罚参数值？ - 吾爱随笔录 - 问答

在线性回归中，为什么正则化也会惩罚参数值？

机器算法验证回归正则化超参数

2022-03-10 15:38:59

目前正在学习岭回归，我对更复杂模型的惩罚（或更复杂模型的定义）有点困惑。

据我了解，模型复杂性不一定与多项式阶数相关。所以：是一个比

2 + 3 + 4 x^{2} + 5 x^{3} + 6 x^{4}

$2 + 3+ 4x^2 + 5x^3 + 6x^4$

5 x^{5}

$5x^5$

而且我知道正则化的目的是保持模型复杂度低，例如我们有一个五阶多项式

f (x; w) = w_{0} + w_{1} x + w_{2} x^{2} + w_{3} x^{3} + w_{4} x^{4} + w_{5} x^{5}

$f(x; w) = w_0 + w_1x + w_2x^2 + w_3x^3 + w_4x^4 + w_5x^5$

为 0 的参数越多越好。

但我不明白的是，如果它是同阶多项式，为什么较低的参数值会受到较少的惩罚？那么为什么会：

2 + 5 x + x^{3}

$2 + 5x + x^3$ 是一个比

433 + 342 x + 323 x^{3}

$433+ 342x + 323x^3$ 它们都是相同的多项式阶，参数值只是简单地依赖于数据。

谢谢！

1个回答

参数值仅取决于数据

这是你问题的关键部分。这就是你感到困惑的地方。

是的，参数值取决于数据。但是当我们拟合模型时，数据是固定的。换句话说，我们拟合了一个以观察为条件的模型。比较适合不同数据集的不同模型的复杂性是没有意义的。

在固定数据集的上下文中，模型

2 + 5 x + x^{3}

$2 + 5x + x^3$

确实更接近最简单的可能模型，即平零模型，而不是

433 + 342 x + 323 x^{3},

$433+ 342x + 323x^3,$

无论您的观察规模如何，这都是成立的。

顺便说一句，截距（和）通常不会受到惩罚，例如，在大多数 Lasso 公式中，因为我们通常擅长让它自由变化以捕获观察的整体平均值。换句话说，我们将模型缩小到观察值的平均值，而不是完全零模型（零通常是任意的）。从这个意义上说，平板和平板模型将被视为同样复杂。 $2$ $433$ $2$ $433$

其它你可能感兴趣的问题

上一篇Covid-19 的预测效果如何？下一篇是否R2R2取决于样本量？