机器算法验证 - 为什么岭回归不能提供比 LASSO 更好的可解释性？ - 吾爱随笔录

为什么岭回归不能提供比 LASSO 更好的可解释性？

机器算法验证特征选择套索正则化岭回归弹性网

2022-01-30 11:15:27

我已经对岭回归和 LASSO 的优缺点有了一个想法。

对于 LASSO，L1 惩罚项会产生一个稀疏的系数向量，可以看作是一种特征选择方法。但是，LASSO 有一些限制。如果特征具有高相关性，LASSO 将只选择其中之一。此外，对于 >的问题，LASSO 最多会选择参数（和分别是观测值和参数的数量）。与岭回归相比，这些使得 LASSO 在可预测性方面根据经验成为次优方法。 $p$ $n$ $n$ $n$ $p$

对于岭回归，它通常提供更好的可预测性。但是，它的可解释性不如 LASSO。

上面的解释经常可以在机器学习/数据挖掘的教科书中找到。但是，我仍然对两件事感到困惑：

如果我们对特征范围进行归一化（比如在 0 和 1 之间，或者零均值和单位方差），并运行岭回归，我们仍然可以通过对系数的绝对值进行排序来了解特征重要性（最重要的特征具有系数的最高绝对值）。尽管我们没有明确选择特征，但使用岭回归并不会丢失可解释性。同时，我们仍然可以实现高预测能力。那我们为什么需要LASSO？我在这里错过了什么吗？
由于 LASSO 的特征选择性质，它是首选吗？据我了解，我们需要特征选择的原因是泛化能力和易于计算。

为了便于计算，如果我们正在执行一些 NLP 任务，我们不想将所有 100 万个特征都输入到我们的模型中，因此我们首先丢弃一些明显无用的特征以降低计算成本。但是，对于 LASSO，我们只有在将所有数据输入模型后才能知道特征选择结果（稀疏向量），因此在降低计算成本方面我们并没有从 LASSO 中受益。我们只能使预测更快一点，因为现在我们只将特征子集（比如 100 万个中的 500 个）输入到我们的模型中以生成预测结果。

如果 LASSO 因其泛化能力而受到青睐，那么我们也可以使用岭回归（或任何其他类型的正则化）来实现相同的目标。为什么我们又需要 LASSO（或弹性网）？为什么我们不能只坚持岭回归？

有人可以对此有所了解吗？谢谢！

2个回答

如果您订购 100 万个 ridge-shrunk、缩放但非零特征，您将不得不做出某种决定：您将查看n 个最佳预测变量，但n是多少？LASSO 以一种有原则的、客观的方式解决了这个问题，因为对于路径上的每一步（通常，您会通过交叉验证确定一个点），只有m个非零系数。
很多时候，您会在一些数据上训练模型，然后将其应用于一些尚未收集的数据。例如，您可以在 50.000.000 封电子邮件上拟合您的模型，然后在每封新电子邮件上使用该模型。诚然，您将把它放在前 50.000.000 封邮件的完整功能集上，但是对于接下来的每封电子邮件，您将处理一个更稀疏、更快、内存效率更高的模型。您甚至不需要收集丢弃特征的信息，如果特征提取成本很高，例如通过基因分型，这可能会非常有用。

例如 Andrew Gelman 所揭示的关于 L1/L2 问题的另一种观点是，您经常有一些直觉，您的问题可能是什么样的。在某些情况下，现实可能真的很稀疏。也许你已经测量了数百万个基因，但实际上只有 30.000 个基因决定了多巴胺的代谢，这似乎是合理的。在这种情况下，L1 可以说更适合这个问题。
在其他情况下，现实可能很密集。例如，在心理学中，“一切都（在某种程度上）与一切相关”（Paul Meehl）。对苹果和橙子的偏好可能确实与政治倾向有关——甚至与智商有关。正则化在这里可能仍然有意义，但真正的零效应应该很少见，因此 L2 可能更合适。

如果目标依赖于许多特征，可解释性就会降低。如果我们可以减少特征数量并保持准确性，它会增加。岭正则化不具备减少特征数量的能力。但拉索有这个能力。以下链接直观地解释了这是如何发生的：

点击关于走向数据科学的文章

其它你可能感兴趣的问题

上一篇平均和边际治疗效果之间的差异下一篇为什么要使用 EM 而不是使用 MLE 的梯度下降？