测试套索逻辑回归中的系数显着性

机器算法验证 物流 统计学意义 回归系数 套索 选择性推理
2022-02-13 05:04:33

[这里问了一个类似的问题,没有答案]

我已经用 L1 正则化(套索逻辑回归)拟合了一个逻辑回归模型,我想测试拟合系数的显着性并获得它们的 p 值。我知道 Wald 的测试(例如)是在没有正则化的情况下在完全回归中测试单个系数的重要性的一种选择,但是对于 Lasso,我认为会出现进一步的问题,这些问题不允许应用通常的 Wald 公式。例如,测试所需的方差估计不遵循通常的表达式。原始套索纸:

通过 Lasso 进行回归收缩和选择

建议使用基于引导程序的程序来估计系数方差,这(我认为)可能需要用于测试(第 2.5 节,第 272 页的最后一段和 273 的开头):

一种方法是通过引导程序:要么t可以修复或者我们可以优化t对于每个引导样本。定影t类似于选择(特征的)最佳子集,然后对该子集使用最小二乘标准误差

我的理解是:将 Lasso 回归反复拟合到整个数据集,直到我们找到正则化参数的最佳值(这不是引导程序的一部分),然后仅使用 Lasso 选择的特征来拟合 OLS 回归到子样本数据并应用通常的公式来计算每个回归的方差。(然后我应该如何处理每个系数的所有这些方差以获得每个系数的最终方差估计?)

此外,将通常的显着性检验(例如利用估计的 beta 和方差的 Wald 检验)与系数的 Lasso 估计和 bootstrap 估计的方差一起使用是否正确?我相当肯定它不是,但任何帮助(使用不同的测试,使用更直接的方法,无论如何......)都非常受欢迎。

根据这里的答案,我怀疑无法获得推断和 p 值。就我而言,p 值是一个外部要求(尽管我选择使用 L1 正则化)。

非常感谢

编辑 如果我只使用上一次 Lasso 逻辑回归运行选择的变量来拟合 OLS 逻辑回归怎么办?显然(见这里),

进行交叉验证后无需再次运行模型(您只需从 cv.glmnet 的输出中获取系数),事实上,如果您在没有惩罚的情况下拟合新的逻辑回归模型,那么您就违背了使用的目的套索

但是,如果我这样做的唯一目的是能够计算 p 值,同时保持较低的变量数量呢?这是一种非常肮脏的方法吗?:-)

2个回答

使用通常的显着性检验的问题在于它们假设存在随机变量的空值,与结果变量没有关系。但是,您使用套索所拥有的是一堆随机变量,您可以从中选择使用套索的最佳变量,并且缩小了 beta。所以你不能用它,结果会有偏差。

据我所知,bootstrap 不是用来获取方差估计,而是用来获取变量的概率。这些是你的 p 值。查看 Hassie 的免费书籍,Statistical Learning with Sparsity,第 6 章讨论了同样的事情。稀疏的统计学习:套索和概括

另请查看本文以了解从套索获取 p 值的其他一些方法: 高维推理:置信区间、p 值和 R 软件 hdi。可能还有更多。

在选择模型后执行推理的问题在于,您选择了最具预测性的变量,然后执行推理,就好像它们是独立于数据选择的一样。有可能表明,在使用套索(或任何其他模型选择方法!)进行模型选择后重新拟合回归模型可能会导致n有偏估计(这是简单的高斯近似在置信区间中经常失败的原因之一)

幸运的是,近年来在开发解释后选择的推理方法方面取得了很大进展。与您的案例相关的一些参考资料是: Exact post-selection inference, with application to the lasso and, Post-selection inference for l1-penalized似然模型,斯坦福大学的 Jonathan Taylor 和 Robert Tibshirani这些参考文献中讨论的技术在 R 包中实现,selectiveInference -selectiveInference:后选择推理工具 | 克兰 选择性推理包应该产生您需要的有效置信区间。