使用 lasso 进行特征选择,然后进行非正则化回归

机器算法验证 回归 物流 特征选择 套索
2022-03-22 22:35:45

我使用 Lasso 逻辑回归来识别重要变量的较小子集。我从 N=51 (28/23) 和 32 个预测变量开始。

到目前为止,它看起来很有希望,因为我可以在我的最佳模型中识别出四个重要的预测变量。

现在我想将这四个预测变量与标准逻辑回归中的一些控制变量一起检查。

我的问题是,这种分析策略有意义吗?有没有更好的方法来包含可能有趣的控件或其他变量?

为了更好地理解:

  1. 通过 Lasso 逻辑回归识别重要变量

  2. 使用标准逻辑回归进行进一步分析,包括确定的预测变量和其他控制变量(使用 AIC 检查模型拟合)

2个回答

请注意,存在多个迭代 LASSO 过程,因此一般来说,您不一定要坚持第一个 LASSO 估计。

例如:

  • Post-LASSO-OLS:参见 Belloni, Chernozhukov (2013) Least squares after model selection in high-dimensional sparse models, Bernoulli 19(2), 2013, 521–547。也称为 LASSO-OLS 混合(Efron 等人 2004,最小角度回归。统计年鉴 32 407–451)

  • 自适应 LASSO (Zou 2006),最终是多个阶段 (Bühlman, Meier 2008)。两阶段(或更多),均使用 CV 程序,第二阶段使用修正(重新加权)惩罚。

  • 松弛 LASSO (Meinshausen 2007),在由初始 LASSO 计算的一组子集上

现在一般来说,我会使用这些程序之一来决定是否添加更多变量,而不是使用 BIC 模型选择程序。

执行一些变量选择(例如,使用 LASSO 和通过交叉验证选择的平滑参数或其他一些替代方案,如弹性网等),然后在相同的数据上拟合模型,就好像没有发生变量选择一样总是不合适的。为什么不看看 LASSO 的结果呢?正如其他人所说,许多记录很少的预测变量当然很棘手,但至少这些会缩小系数以解释变量选择。