回归分析中的套索是什么?

机器算法验证 回归 套索 正则化
2022-01-29 22:49:58

我正在寻找套索的非技术定义及其用途。

3个回答

LASSO(最小绝对收缩和选择算子)是一种回归方法,涉及惩罚回归系数的绝对大小。

通过惩罚(或等效地限制估计值的绝对值之和),您最终会陷入某些参数估计值可能恰好为零的情况。施加的惩罚越大,进一步的估计值就会缩小到零。

当我们想要一些自动特征/变量选择时,或者在处理高度相关的预测变量时,这很方便,其中标准回归通常具有“太大”的回归系数。

https://web.stanford.edu/~hastie/ElemStatLearn/(免费下载)对 LASSO 和相关方法有很好的描述。

在“正态”回归 (OLS) 中,目标是最小化残差平方和 (RSS) 以估计系数

argminβRpi=1n(Yij=1pXijβj)2

在 LASSO 回归的情况下,您使用稍微不同的方法估计系数:

argminβRpi=1n(Yij=1pXijβj)2+λj=1p|βj|

新部分以红色突出显示,它是被惩罚的绝对系数值的总和λ, 所以λ控制(L1)调节量。

请注意,如果λ=0,它会产生与简单线性回归相同的系数。该公式表明,在 LASSO 的情况下argminRSS 和 L1 调整(新的红色部分)都需要最小化。如果λ=1,红色的 L1 惩罚限制了系数的大小,因此只有在导致 RSS 减少相同量的情况下,系数才能增加。更一般地说,系数可以增加的唯一方法是,如果我们经历残差平方和 (RSS) 的可比减少。因此,您设置的越高λ对系数施加的惩罚越多,系数越小,有些可能会变为零。这意味着 LASSO 可以通过进行特征选择来生成简约的模型,并防止模型过度拟合。也就是说,如果您有很多特征并且您的目标是预测数据而不是解释模型的系数,则可以使用 LASSO。

LASSO 回归是一种回归分析,其中变量选择和调节同时发生。该方法使用影响回归系数值的惩罚。随着惩罚的增加,更多的系数变为零,反之亦然。它使用 L1 归一化技术,其中调整参数用作收缩量。随着调整参数的增加,偏差增加,而随着调整参数的减少,方差增加。如果它是常数,则没有系数为零,并且趋于无穷大,则所有系数都将为零。