机器算法验证 - 岭回归背景下的拉格朗日松弛 - 吾爱随笔录

在“统计学习的要素”（第 2 版）第 63 页中，作者给出了岭回归问题的以下两种表述：

{\hat{β}}^{r i d g e} = \underset{β}{argmin} {\sum_{i = 1}^{N} (y_{i} - β_{0} - \sum_{j = 1}^{p} x_{i j} β_{j})^{2} + λ \sum_{j = 1}^{p} β_{j}^{2}}

$\hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} \left\{ \sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^p x_{ij} \beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2 \right\}$

和

{\hat{β}}^{r i d g e} = \underset{β}{argmin} \sum_{i = 1}^{N} (y_{i} - β_{0} - \sum_{j = 1}^{p} x_{i j} β_{j})^{2}, subject to \sum_{j = 1}^{p} β_{j}^{2} \leq t .

$\hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} \sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^p x_{ij} \beta_j)^2 \text{, subject to } \sum_{j=1}^p \beta_j^2 \leq t.$

声称两者是等价的，并且参数之间是一一对应的 $\lambda$ 和 $t$ .

似乎第一个公式是第二个公式的拉格朗日松弛。然而，我从来没有对拉格朗日松弛如何或为什么起作用有直观的理解。

有没有一种简单的方法来证明这两个公式确实是等价的？如果我必须选择，我更喜欢直觉而不是严谨。

谢谢。