岭回归背景下的拉格朗日松弛

机器算法验证 岭回归
2022-01-28 06:17:19

在“统计学习的要素”(第 2 版)第 63 页中,作者给出了岭回归问题的以下两种表述:

β^ridge=argminβ{i=1N(yiβ0j=1pxijβj)2+λj=1pβj2}

β^ridge=argminβi=1N(yiβ0j=1pxijβj)2, subject to j=1pβj2t.

声称两者是等价的,并且参数之间是一一对应的λt.

似乎第一个公式是第二个公式的拉格朗日松弛。然而,我从来没有对拉格朗日松弛如何或为什么起作用有直观的理解。

有没有一种简单的方法来证明这两个公式确实是等价的?如果我必须选择,我更喜欢直觉而不是严谨。

谢谢。

1个回答

使用包络定理可以最容易地显示对应关系

首先,标准拉格朗日将有一个额外的λt学期。如果我们只是处理,这不会影响最大化问题λ正如给定的那样,所以 Hastie 等人放弃了它。

现在,如果你区分完整的拉格朗日t,包络定理说你可以忽略的间接影响t通过β,因为你处于最大值。您将剩下的是来自的拉格朗日乘数器λt.

但这在直觉上意味着什么?由于约束在最大值处绑定,因此在最大值处评估的拉格朗日导数与原始目标的导数相同。因此,拉格朗日乘数给出了影子价格——就目标而言的价值——通过增加t.

我认为这是 Hastie 等人的对应关系。指的是。