弹性/脊/套索分析,然后呢?

机器算法验证 假设检验 预言 推理 套索 弹性网
2022-02-03 07:16:20

我对预测变量收缩/选择的弹性网络程序非常感兴趣。它似乎非常强大。

但是从科学的角度来看,一旦我得到了系数,我不知道该怎么做。我在回答什么问题?这些是对结果影响最大的变量,这些是在验证期间给出最佳方差/偏差比的系数?

与经典的 p 值/置信区间方法相比,这当然是一种非常具有描述性/预测性的方法。Tibshirani & Co. 现在正在研究推理估计,但仍处于实验阶段。

有些人正在使用弹性网络选择的变量进行经典的推理分析,但这将消除该技术带来的方差限制。

另一个问题是,由于弹性网络的 lambda 和 alpha 参数是通过交叉验证选择的,因此它们会受到随机变化的影响。因此,每次运行(例如) cv.glmnet() 时,您都会选择一个略有不同的预测变量子集,其系数总是不同的。

我考虑将正确的 lambda 和 alpha 作为随机变量来解决这个问题,然后重新运行交叉验证步骤 n 次以获得这些参数的分布。这样,对于每个预测变量,我都会有出现的次数,对于每个系数,我都会有结果的分布。这应该会给我更多的范围统计结果(如系数的 sd)。看看 lambda 和 alpha 选择的这种方式是否渐近地接近某个分布也会很有趣,因为这将为一些推理测试开辟道路(但我不是统计学家,所以我不应该谈论我不知道的事情'不完全理解)。

所以最后我的问题是:一旦你从具有基于交叉验证的 alpha 和 lambda 的弹性网络中获得预测变量和系数,你应该如何以及如何呈现这些结果?你应该如何讨论它们?我们学到了什么?我们在反驳哪个假设/概括?

2个回答

您对弹性、岭或套索所做的事情,使用交叉验证来选择正则化参数,是拟合一些线性形式来优化预测为什么要使用这些特定的正则化参数?因为它们最适合预测新数据。将系数估计缩小到零,引入偏差(如在 Ridge 或 Lasso 中所做的那样)可以减少过度拟合和缩小方差这个想法是让你的惩罚参数达到适当的平衡,以优化对新数据的预测。

想象一下数据生成过程是:

yi=f(xi,β)+ϵi

的估计,让的预测β^βy^jj

你应该如何展示你的结果?这取决于您的潜在研究问题是什么!您可能想退后一步,深入思考要回答的问题。你的听众关心什么?你想做什么?

  • 预言?
  • 估计系数?
  • 变量选择?

区分两种类型的研究问题很重要:

  1. 您主要关心预测的问题,即您关心y^j
  2. 您主要关心参数估计的问题β^

现成的机器学习技术对于前者的预测问题可能非常正如您似乎认识到的那样,标准的现成机器学习技术对于参数估计问题可能非常有问题:y^β^

  • 在高维设置中,许多不同的参数化会给你相同的预测如果参数数量相对于观察数量较高,则您可能无法很好地估计任何单个参数。y^kn
  • 在不同折叠上训练的算法可能具有显着不同的参数估计。
  • 机器学习的重点是预测,而不是一致地估计因果效应。(这与计量经济学形成鲜明对比,计量经济学的主要问题通常是一致地估计因果效应)。预测,估计某种功能形式,不同于估计因果关系。警察水平可能是犯罪水平的一个很好的预测指标,但这并不意味着警察会导致犯罪。

正如您所认识到的,在解释某些机器学习参数化为何有效可能存在问题。您的观众对预测黑匣子感到满意吗?或者预测是如何对您的问题起到核心作用的?

套索和山脊:使用它们的经典理由

  • 您可以将弹性网络用于经典机器学习、预测问题以及您主要关注的情况是在某种意义上,正则化允许你包含更多的预测变量,但仍然可以控制过度拟合。y^

  • 您可以使用正则化来防止过度拟合。例如。在多项式曲线拟合的情况下,岭回归可以很好地工作。

  • 正如@Benjamin 在他的回答中指出的那样,套索也可以用于变量选择。在一定的规律性条件下,Lasso 会始终如一地选择合适的模型:不相关的系数将被设置为零。

Lasso 和 Ridge的惩罚分别使系数估计偏向零。如果偏差很大,如果您试图解释系数估计,这可能是一个严重的问题。要获得标准误差估计,您需要做一些类似自举的事情;没有简单的封闭式解决方案(我知道)。Ridge、lasso 和 elastic net 与常规 OLS 回归有相似之处,但正则化和变量选择使推理完全不同......L1L2

我不断回到的是,如果没有更多关于您要弄清楚的内容的上下文,很难解释运行岭回归、套索或弹性网络的结果!


Sendhil Mullainathan 教授在 2017 年 1 月的 AFA 会议上发表了关于机器学习的演讲,激发了这篇文章的部分内容。

这些方法——套索和弹性网络——诞生于特征选择和预测的问题。正是通过这两个镜头,我认为可以找到一个解释。

Matthew Gunn 在他的回复中很好地解释了这两个目标是不同的,并且经常由不同的人承担。然而,对我们来说幸运的是,我们感兴趣的方法可以在两个领域都表现良好。

特征选择

首先,我们来谈谈特征选择。我们首先应该从套索的角度来激发弹性网络。也就是说,引用Hastie 和 Zou的话,“如果有一组变量之间的成对相关性非常高,那么套索倾向于只从组中选择一个变量,而不关心选择哪个变量。” 例如,这是一个问题,因为这意味着我们不太可能使用套索找到真正支持的元素——只有一个与它高度相关的元素。(论文提到这在 LARS 论文中得到了证明,我还没有读过。) Wainwright也指出了存在相关性的情况下支持恢复的难度0.5当真正的支持和它的补充之间存在高度相关性时。

现在,弹性网络中的 l2 惩罚鼓励具有仅通过损失和 l1 惩罚无法区分的系数的特征具有相等的估计系数。我们可以通过注意到(a,b)=argmina,b:c=|a|+|b|(a)2+(b)2满足. 因此,弹性网络使我们不太可能“意外”使真正支持的系数估计消失。也就是说,真正的支持更有可能包含在估计的支持中。那挺好的!这确实意味着会有更多的错误发现,但这是大多数人愿意付出的代价。|a|=|b|

顺便说一句,值得指出的是,高度相关的特征往往具有非常相似的系数估计,因此我们可以在估计的支持中检测到类似地影响响应的特征分组。

预言

现在,我们继续进行预测。正如 Matthew Gunn 所指出的,通过交叉验证来选择调整参数的目的是为了选择一个预测误差最小的模型。由于套索选择的任何模型都可以被弹性网络选择(通过取),因此弹性网络能够找到比套索更好的预测模型是有道理的。α=1

Lederer、Yu 和 Gaynanova表明,在对特征没有任何假设的情况下,lasso 和弹性网络的 l2 预测误差都可以以相同的数量为界。它们的界限并不一定很紧,但这可能很有趣,因为预言不等式似乎是统计文献中量化估计器预测性能的标准方法——也许是因为分布是如此复杂!还值得注意的是,Lederer (1) (2)有一些关于存在相关特征的套索预测的论文。

概括

总之,感兴趣的问题是在估计的支持和预测范围内的真正支持。对于支持恢复,有严格证明的保证(通过 Wainwright)套索在假设真实支持和它的补充之间的低相关性的假设下选择正确的特征进入模型。然而,在存在相关性的情况下,我们可以回退到弹性网络,以便更有可能选择真实支持中的特征作为它选择的所有特征。(请注意,我们必须在这里仔细选择调整参数。)并且,对于通过交叉验证选择调整参数时的预测,弹性网络应该比套索表现更好 - 尤其是在存在相关性的情况下。 .

抛开预测和一些形式,我们学到了什么?我们了解了真正的支持。

置信区间

值得指出的是,在过去 2 年中,套索的有效推理发生了很大变化。特别是,Lee、Sun、Sun 和 Taylor的工作提供了以所选给定模型为条件的套索系数的精确推断。(关于真实系数的套索推断结果大约在 OP 发布时出现,并且它们在链接的论文中得到了很好的总结。)