机器算法验证 - 回归分析中的套索是什么？ - 吾爱随笔录

回归分析中的套索是什么？

机器算法验证回归套索正则化

2022-01-29 22:49:58

我正在寻找套索的非技术定义及其用途。

3个回答

LASSO（最小绝对收缩和选择算子）是一种回归方法，涉及惩罚回归系数的绝对大小。

通过惩罚（或等效地限制估计值的绝对值之和），您最终会陷入某些参数估计值可能恰好为零的情况。施加的惩罚越大，进一步的估计值就会缩小到零。

当我们想要一些自动特征/变量选择时，或者在处理高度相关的预测变量时，这很方便，其中标准回归通常具有“太大”的回归系数。

https://web.stanford.edu/~hastie/ElemStatLearn/（免费下载）对 LASSO 和相关方法有很好的描述。

在“正态”回归 (OLS) 中，目标是最小化残差平方和 (RSS) 以估计系数

\underset{β \in R^{p}}{argmin} \sum_{i = 1}^{n} (Y_{i} - \sum_{j = 1}^{p} X_{i j} β_{j})^{2}

$\underset{\beta \in \mathbb{R}^p}{\operatorname{argmin}} \sum_{i=1}^{n} (Y_{i} - \sum_{j=1}^{p}X_{ij}\beta_{j})^{2}$

在 LASSO 回归的情况下，您使用稍微不同的方法估计系数：

\underset{β \in R^{p}}{argmin} \sum_{i = 1}^{n} (Y_{i} - \sum_{j = 1}^{p} X_{i j} β_{j})^{2} + λ \sum_{j = 1}^{p} | β_{j} |

$\underset{\beta \in \mathbb{R}^p}{\operatorname{argmin}} \sum_{i=1}^{n} (Y_{i} - \sum_{j=1}^{p}X_{ij}\beta_{j})^{2} \color{red}{+ \lambda \sum_{j=1}^{p}|\beta_{j}|}$

新部分以红色突出显示，它是被惩罚的绝对系数值的总和 $\lambda$ ，所以 $\lambda$ 控制（L1）调节量。

请注意，如果 $\lambda = 0$ ，它会产生与简单线性回归相同的系数。该公式表明，在 LASSO 的情况下 $\operatorname{argmin}$ RSS 和 L1 调整（新的红色部分）都需要最小化。如果 $\lambda = 1$ ，红色的 L1 惩罚限制了系数的大小，因此只有在导致 RSS 减少相同量的情况下，系数才能增加。更一般地说，系数可以增加的唯一方法是，如果我们经历残差平方和 (RSS) 的可比减少。因此，您设置的越高 $\lambda$ 对系数施加的惩罚越多，系数越小，有些可能会变为零。这意味着 LASSO 可以通过进行特征选择来生成简约的模型，并防止模型过度拟合。也就是说，如果您有很多特征并且您的目标是预测数据而不是解释模型的系数，则可以使用 LASSO。

LASSO 回归是一种回归分析，其中变量选择和调节同时发生。该方法使用影响回归系数值的惩罚。随着惩罚的增加，更多的系数变为零，反之亦然。它使用 L1 归一化技术，其中调整参数用作收缩量。随着调整参数的增加，偏差增加，而随着调整参数的减少，方差增加。如果它是常数，则没有系数为零，并且趋于无穷大，则所有系数都将为零。

其它你可能感兴趣的问题

上一篇使用均值和方差计算 Beta 分布的参数下一篇什么是主成分分数？