Lasso 是否不需要进行系数显着性检验?

机器算法验证 r 回归 假设检验 模型选择 套索
2022-03-26 14:57:01

由于 Lasso 选择了要包含在模型中的最佳预测变量,这是否表明我们不需要进行 OLS 回归和逻辑回归附带的任何典型显着性检验?我已经习惯了每个回归器的带有星号的 R 输出,但是从与人的交谈来看,在实践中,他们似乎只是在 Lasso 中优化 lambda,然后只使用这些系数 - 并隐含假设所有这些都是重要的。

1个回答

总结评论中提供的信息:

Lasso 选择要包含在模型中的最佳预测变量...

不会。LASSO 会选择一组恰好适用于特定数据集的预测变量。不能保证它们在任何广义上都是“最佳的”。当与结果相关的预测因子相关时,情况尤其如此。有关详细信息,请参阅此页面以及标记为“链接”和“相关”的页面。尝试在数据集的多个自举样本上重复 LASSO,并查看模型中保留相同预测变量的频率。

...我们不需要做任何典型的 OLS 回归和逻辑回归带来的显着性检验

首先,如果您主要对预测感兴趣,那么进行显着性检验的需求有限。考虑到遗漏变量偏差的风险,除非您有过度拟合模型的风险,否则我忽略任何可能与结果合理相关的预测变量几乎没有什么好处。仅仅因为您无法在 p < 0.05 时“证明”某个预测因子与结果相关,但这并不意味着它无助于改进预测。

其次,通过适当注意和理解 p 值的含义,可以使用 LASSO 进行推断。有关问题的介绍和更多链接,请参阅此页面