在 LASSO 变量选择之后做 OLS 有什么意义?

机器算法验证 回归 特征选择 计量经济学 最小二乘 套索
2022-01-22 20:34:55

最近我发现在应用计量经济学文献中,在处理特征选择问题时,执行 LASSO 后使用所选变量进行 OLS 回归的情况并不少见。

我想知道我们如何才能确定这种程序的有效性。会不会造成遗漏变量等麻烦?有任何证据表明它更有效,或者结果更易于解释?

以下是一些相关的讨论:

使用 LASSO 进行变量选择

在使用 Lasso/Random 进行变量选择后使用树

如果如所指出的那样,这样的程序总体上是不正确的,那么为什么还有这么多的研究这样做呢?由于 LASSO 估计器的一些令人不安的特性以及人们对 OLS 的喜爱,我可以说这只是一个经验法则,一个折衷的解决方案吗?

3个回答

前几天有一个类似的问题有相关参考:

  • Belloni, A., Chernozhukov, V. 和 Hansen, C. (2014)“高维控制选择后治疗效果的推断”,经济研究评论,81(2),第 608-50 页(链接

至少对我来说,这篇论文读起来相当困难,因为这个相对简单的证据背后的证据相当复杂。当您对估计像

yi=αTi+Xiβ+ϵi

其中是您的结果,是一些感兴趣的治疗效果,是潜在控制的向量。目标参数是假设您的结果中的大部分变化可以通过治疗和一组稀疏的控制来解释,Belloni 等人。(2014) 开发了一种双鲁棒选择方法,可提供正确的点估计和有效的置信区间。不过,这种稀疏假设很重要。yiTiXiα

如果包含的一些重要预测变量,但您不知道它们是哪些(单个变量、它们的高阶多项式或与其他变量的交互),则可以执行三步选择过程:Xiyi

  1. 上回归,它们的平方和交互,并使用 LASSO 选择重要的预测变量yiXi
  2. 回归上,它们的平方和交互,并使用 LASSO 选择重要的预测变量TiXi
  3. 上回归以及在前两个步骤中选择的所有变量yiTi

他们提供了关于为什么这样有效以及为什么从这种方法中获得正确的置信区间等的证据。他们还表明,如果您仅对上述回归执行 LASSO 选择,然后对治疗结果和所选变量进行回归,您会得到错误的点估计和错误的置信区间,就像 Björn 已经说过的那样。

这样做的目的是双重的:将您的初始模型(变量选择由直觉或理论指导)与双稳健选择模型进行比较,让您了解您的第一个模型有多好。也许您的第一个模型忘记了一些重要的平方或交互项,因此遭受错误指定的函数形式或遗漏变量的困扰。其次,贝罗尼等人。(2014)方法可以改进对目标参数的推断,因为冗余回归器在其过程中被惩罚掉了。

要执行变量选择然后重新运行分析,就好像没有发生变量选择并且选择的模型从一开始就是预期的那样,通常会导致夸大的效应大小、无效的 p 值和低于标称覆盖率的置信区间。也许如果样本量非常大并且有一些巨大的影响和很多无效的影响,LASSO+OLS 可能不会受到太大的影响,但除此之外我看不到任何合理的理由,在这种情况下 LASSO估计也应该没问题。

在 LASSO 之后运行 OLS 回归可能是一个好主意。这只是为了仔细检查您的 LASSO 变量选择是否有意义。很多时候,当您使用 OLS 回归重新运行模型时,您会发现 LASSO 选择的许多变量远未达到统计显着性和/或符号错误。而且,这可能会邀请您使用另一种变量选择方法,因为您的数据集可能比 LASSO 更强大。

LASSO 并不总是按预期工作。这是因为它的拟合算法包括一个惩罚因子,该因子会针对较高的回归系数对模型进行惩罚。这似乎是一个好主意,因为人们认为它总能减少模型过度拟合,并改进预测(对新数据)。实际上,它经常做相反的事情......增加模型欠拟合并削弱预测准确性。通过在 Internet 上搜索图像并专门搜索“LASSO MSE 图”,您可以看到很多这样的示例。每当此类图表在 X 轴的开头显示最低 MSE 时,它就会显示失败的 LASSO(增加模型欠拟合)。

上述意想不到的后果是由于惩罚算法造成的。因为它,LASSO 无法区分具有预测信息和相关高回归系数的强因果变量和具有低回归系数的没有解释或预测信息值的弱变量。通常,LASSO 会更喜欢弱变量而不是强因果变量。此外,它有时甚至可能导致变量的方向符号发生变化(从一个有意义的方向转移到一个没有意义的相反方向)。通过在 Internet 上搜索图像并专门搜索“LASSO 系数路径”,您可以看到许多示例。