机器算法验证 - 对 LASSO 自由度的直觉 - 吾爱随笔录

对 LASSO 自由度的直觉

机器算法验证回归套索自由程度正则化

2022-02-28 22:10:27

邹等人。“关于套索的“自由度””（2007 年）表明，非零系数的数量是对套索自由度的无偏且一致的估计。

这对我来说似乎有点违反直觉。

假设我们有一个回归模型（变量为零均值）

y = β x + ε .

$y=\beta x + \varepsilon.$

的无限制 OLS 估计是。对于非常低的惩罚强度，大致一致。 $\beta$ $\hat\beta_{OLS}=0.5$ $\beta$
进一步假设对特定惩罚强度的 LASSO 估计是。例如，可能是使用交叉验证找到的手头数据集的“最佳”。 $\lambda^*$ $\hat\beta_{LASSO,\lambda^*}=0.4$ $\lambda^*$ $\lambda$
如果我理解正确，在这两种情况下，自由度都是 1，因为两次都有一个非零回归系数。

问题：

即使表明拟合的“自由度”低于，为什么两种情况下的自由度相同？ $\hat\beta_{LASSO,\lambda^*}=0.4$ $\hat\beta_{OLS}=0.5$

参考：

Zou、Hui、Trevor Hastie 和 Robert Tibshirani。“关于套索的‘自由度’。” 统计年鉴35.5（2007 年）：2173-2192。

1个回答

假设我们有一组维观察， ,。假设模型的形式为：其中 ,和表示内积。令是使用拟合方法（我们的目的是 OLS 或 LASSO）的估计。文章中给出的自由度公式（公式 1.2）为： $n$ $p$ $x_i \in \mathbb{R}^p$ $i = 1, \dotsc, n$

\begin{aligned} Y_{i} = ⟨ β, x_{i} ⟩ + ϵ \end{aligned}

$\begin{align} Y_i = \langle \beta, x_i\rangle + \epsilon \end{align}$

ϵ \sim N (0, σ^{2})

$\epsilon \sim N(0, \sigma^2)$

β \in R^{p}

$\beta \in \mathbb{R}^p$

⟨ \cdot, \cdot ⟩

$\langle \cdot, \cdot \rangle$

\hat{β} = δ ({Y_{i}}_{i = 1}^{n})

$\hat{\beta} = \delta(\{Y_i\}_{i=1}^n)$

β

$\beta$

δ

$\delta$

\begin{aligned} df (\hat{β}) = \sum_{i = 1}^{n} \frac{Cov (⟨ \hat{β}, x_{i} ⟩, Y_{i})}{σ^{2}} . \end{aligned}

$\begin{align} \text{df}(\hat{\beta}) = \sum_{i=1}^n \frac{\text{Cov}(\langle\hat{\beta}, x_i\rangle, Y_i)}{\sigma^2}. \end{align}$

通过检查这个公式，我们可以推测，按照你的直觉，LASSO 的真实DOF 确实会小于 OLS 的真实DOF；LASSO 影响的系数收缩应该倾向于降低协方差。

现在，为了回答您的问题，LASSO 的 DOF 与您示例中 OLS 的 DOF 相同的原因只是您正在处理从模型中采样的特定数据集获得的估计值（尽管是无偏的），真实的自由度值。对于任何特定的数据集，这样的估计将不等于真实值（特别是因为估计需要是整数，而真实值通常是实数）。

然而，当这样的估计在从模型中采样的许多数据集上进行平均时，根据无偏性和大数定律，这样的平均值将收敛到真实的自由度。在 LASSO 的情况下，其中一些数据集将产生一个系数实际上为 0 的估计器（尽管这样的数据集可能很少见，如果 $\lambda$ 是小）。在 OLS 的情况下，DOF 的估计值始终是系数的数量，而不是非零系数的数量，因此 OLS 情况的平均值将不包含这些零。这显示了估计量的不同之处，以及 LASSO DOF 的平均估计量如何收敛到比 OLS DOF 的平均估计量更小的值。

其它你可能感兴趣的问题

上一篇如何避免 k-means 在不同的运行中分配不同的标签？下一篇Python中二项式数据的逻辑回归