我已经对岭回归和 LASSO 的优缺点有了一个想法。
对于 LASSO,L1 惩罚项会产生一个稀疏的系数向量,可以看作是一种特征选择方法。但是,LASSO 有一些限制。如果特征具有高相关性,LASSO 将只选择其中之一。此外,对于 >的问题,LASSO 最多会选择参数(和分别是观测值和参数的数量)。与岭回归相比,这些使得 LASSO 在可预测性方面根据经验成为次优方法。
对于岭回归,它通常提供更好的可预测性。但是,它的可解释性不如 LASSO。
上面的解释经常可以在机器学习/数据挖掘的教科书中找到。但是,我仍然对两件事感到困惑:
如果我们对特征范围进行归一化(比如在 0 和 1 之间,或者零均值和单位方差),并运行岭回归,我们仍然可以通过对系数的绝对值进行排序来了解特征重要性(最重要的特征具有系数的最高绝对值)。尽管我们没有明确选择特征,但使用岭回归并不会丢失可解释性。同时,我们仍然可以实现高预测能力。那我们为什么需要LASSO?我在这里错过了什么吗?
由于 LASSO 的特征选择性质,它是首选吗?据我了解,我们需要特征选择的原因是泛化能力和易于计算。
为了便于计算,如果我们正在执行一些 NLP 任务,我们不想将所有 100 万个特征都输入到我们的模型中,因此我们首先丢弃一些明显无用的特征以降低计算成本。但是,对于 LASSO,我们只有在将所有数据输入模型后才能知道特征选择结果(稀疏向量),因此在降低计算成本方面我们并没有从 LASSO 中受益。我们只能使预测更快一点,因为现在我们只将特征子集(比如 100 万个中的 500 个)输入到我们的模型中以生成预测结果。
如果 LASSO 因其泛化能力而受到青睐,那么我们也可以使用岭回归(或任何其他类型的正则化)来实现相同的目标。为什么我们又需要 LASSO(或弹性网)?为什么我们不能只坚持岭回归?
有人可以对此有所了解吗?谢谢!