为什么岭回归不能提供比 LASSO 更好的可解释性?

机器算法验证 特征选择 套索 正则化 岭回归 弹性网
2022-01-30 11:15:27

我已经对岭回归和 LASSO 的优缺点有了一个想法。

对于 LASSO,L1 惩罚项会产生一个稀疏的系数向量,可以看作是一种特征选择方法。但是,LASSO 有一些限制。如果特征具有高相关性,LASSO 将只选择其中之一。此外,对于 >的问题,LASSO 最多会选择参数(分别是观测值和参数的数量)。与岭回归相比,这些使得 LASSO 在可预测性方面根据经验成为次优方法。pnnnp

对于岭回归,它通常提供更好的可预测性。但是,它的可解释性不如 LASSO。

上面的解释经常可以在机器学习/数据挖掘的教科书中找到。但是,我仍然对两件事感到困惑:

  1. 如果我们对特征范围进行归一化(比如在 0 和 1 之间,或者零均值和单位方差),并运行岭回归,我们仍然可以通过对系数的绝对值进行排序来了解特征重要性(最重要的特征具有系数的最高绝对值)。尽管我们没有明确选择特征,但使用岭回归并不会丢失可解释性。同时,我们仍然可以实现高预测能力。那我们为什么需要LASSO?我在这里错过了什么吗?

  2. 由于 LASSO 的特征选择性质,它是首选吗?据我了解,我们需要特征选择的原因是泛化能力和易于计算。

    为了便于计算,如果我们正在执行一些 NLP 任务,我们不想将所有 100 万个特征都输入到我们的模型中,因此我们首先丢弃一些明显无用的特征以降低计算成本。但是,对于 LASSO,我们只有在将所有数据输入模型后才能知道特征选择结果(稀疏向量),因此在降低计算成本方面我们并没有从 LASSO 中受益。我们只能使预测更快一点,因为现在我们只将特征子集(比如 100 万个中的 500 个)输入到我们的模型中以生成预测结果。

    如果 LASSO 因其泛化能力而受到青睐,那么我们也可以使用岭回归(或任何其他类型的正则化)来实现相同的目标。为什么我们又需要 LASSO(或弹性网)?为什么我们不能只坚持岭回归?

有人可以对此有所了解吗?谢谢!

2个回答
  1. 如果您订购 100 万个 ridge-shrunk、缩放但非零特征,您将不得不做出某种决定:您将查看n 个最佳预测变量,但n是多少?LASSO 以一种有原则的、客观的方式解决了这个问题,因为对于路径上的每一步(通常,您会通过交叉验证确定一个点),只有m个非零系数。

  2. 很多时候,您会在一些数据上训练模型,然后将其应用于一些尚未收集的数据。例如,您可以在 50.000.000 封电子邮件上拟合您的模型,然后在每封新电子邮件上使用该模型。诚然,您将把它放在前 50.000.000 封邮件的完整功能集上,但是对于接下来的每封电子邮件,您将处理一个更稀疏、更快、内存效率更高的模型。您甚至不需要收集丢弃特征的信息,如果特征提取成本很高,例如通过基因分型,这可能会非常有用。

例如 Andrew Gelman 所揭示的关于 L1/L2 问题的另一种观点是,您经常有一些直觉,您的问题可能是什么样的。在某些情况下,现实可能真的很稀疏。也许你已经测量了数百万个基因,但实际上只有 30.000 个基因决定了多巴胺的代谢,这似乎是合理的。在这种情况下,L1 可以说更适合这个问题。
在其他情况下,现实可能很密集。例如,在心理学中,“一切都(在某种程度上)与一切相关”(Paul Meehl)。对苹果和橙子的偏好可能确实与政治倾向有关——甚至与智商有关。正则化在这里可能仍然有意义,但真正的零效应应该很少见,因此 L2 可能更合适。

如果目标依赖于许多特征,可解释性就会降低。如果我们可以减少特征数量并保持准确性,它会增加。岭正则化不具备减少特征数量的能力。但拉索有这个能力。以下链接直观地解释了这是如何发生的:

点击关于走向数据科学的文章