使用 Lasso 进行变量选择后的推理

机器算法验证 回归 推理 特征选择 套索 无偏估计器
2022-02-13 19:01:27

我正在使用 Lasso 在相对较低的维度设置(n >> p)中进行特征选择。拟合 Lasso 模型后,我想使用具有非零系数的协变量来拟合没有惩罚的模型。我这样做是因为我想要 Lasso 无法给我的公正估计。我还想要无偏估计的 p 值和置信区间。

我很难找到关于这个主题的文献。我发现的大多数文献都是关于在 Lasso 估计上放置置信区间,而不是改装模型。

根据我的阅读,简单地使用整个数据集重新拟合模型会导致不切实际的小 p 值/标准误差。目前,样本拆分(采用 Wasserman 和 Roeder(2014)或 Meinshausen 等人(2009)的风格)似乎是一个很好的行动方案,但我正在寻找更多建议。

有没有人遇到过这个问题?如果是这样,请您提供一些建议。

3个回答

通常,在通过 Lasso 完成变量选择后不使用惩罚进行重新拟合被认为是“作弊”,因为您已经查看了数据,并且由此产生的 p 值和置信区间在通常意义上是无效的。

这篇最近的论文着眼于您想要做什么,并解释了拟合套索、选择重要变量以及没有套索惩罚的重新拟合导致有效的条件p-值和置信区间。他们的直觉推理是

套索选择的变量集是确定性的,不依赖于数据的概率很高。

因此,查看数据两次不是问题。您将需要查看您的问题是否符合论文中所述的条件。

(论文中也有很多有用的参考资料)


参考:

Zhao, S.、Shojaie, A. 和 Witten, D. (2017)。为不可辩护的辩护:一种非常幼稚的高维推理方法。检索自:https ://arxiv.org/pdf/1705.05543.pdf

添加到以前的响应。您绝对应该查看 Tibshirani 及其同事最近的工作。他们开发了一个严格的框架来推断套索类型方法的选择校正 p 值和置信区间,并且还提供了一个 R 包。

看:

李,杰森 D.,等人。“精确的选择后推断,适用于套索。” 统计年鉴 44.3(2016 年):907-927。https://projecteuclid.org/euclid.aos/1460381681

泰勒、乔纳森和罗伯特 J. Tibshirani。“统计学习和选择性推理。” 美国国家科学院院刊 112.25 (2015): 7629-7634。

R-包:

https://cran.r-project.org/web/packages/selectiveInference/index.html

我想从应用计量经济学文献中越来越流行的正交/双机器学习文献中添加一些论文。

  • Belloni、Alexandre、Victor Chernozhukov 和 Christian Hansen。“在高维对照中选择后对治疗效果的推断。” 经济研究回顾 81.2 (2014): 608-650。

    本文讨论了在使用 LASSO 选择“其他”控件后,OLS 估计变量效应的理论特性。

  • Victor Chernozhukov、Denis Chetverikov、Mert Demirer、Esther Duflo、Christian Hansen、Whitney Newey、James Robins,用于治疗和结构参数的双重/去偏机器学习,计量经济学杂志,第 21 卷,第 1 期,2018 年 2 月 1 日,C1-C68 页, https://doi.org/10.1111/ectj.12097

    这发展了使用多种非参数方法(ML 算法)对高维干扰参数(混杂因素)进行非线性控制的综合理论,然后研究特定协变量对结果的影响。他们处理部分线性框架和完全参数化框架。他们还考虑了感兴趣的变量被混淆的情况。