正则化和梯度下降之间的联系

数据挖掘 机器学习 数据挖掘
2021-10-13 04:27:46

我想根据 MLE/梯度下降来理解正则化/收缩。我知道这两个概念,但我不知道/理解两者是否都用于确定线性模型的系数。如果是这样,遵循的步骤是什么?

为了进一步阐述,正则化用于减少方差,这是通过惩罚线性模型的系数来实现的。调整参数 lambda 是通过交叉验证确定的。一旦确定了 lambda,系数就会自动确定,对吧?因此,为什么我们需要最小化(RSS + 正则化项)来找到系数?是否有以下步骤:

  1. 通过交叉验证找到 lambda
  2. 通过 MLE 或 GD 最小化(RSS + 正则化)
  3. 查找系数
  4. 惩罚系数以减少方差
  5. 我们只剩下一小部分系数
1个回答

拟合过程是实际找到模型系数的过程。正则化项用于在拟合过程中通过惩罚大系数来间接找到系数一个简单的(尽管有些偏颇/幼稚)的例子可能有助于说明正则化和梯度下降之间的这种区别:

X, y <- read input data
for different values of lambda L
    for each fold of cross-validation using X,y,L
        theta <- minimize (RSS + regularization using L) via MLE/GD
        score <- calculate performance of model using theta on the validation set 
    if average score across folds for L is better than the current best average score 
        L_best <- L

如您所见,拟合过程(在我们的例子中是 MLE 或 GD)在给定 lambda 的特定值的情况下找到最佳系数。

作为旁注,我会在这里查看这个关于调整正则化参数的答案,因为它在偏差方面有点模糊。