[这里问了一个类似的问题,没有答案]
我已经用 L1 正则化(套索逻辑回归)拟合了一个逻辑回归模型,我想测试拟合系数的显着性并获得它们的 p 值。我知道 Wald 的测试(例如)是在没有正则化的情况下在完全回归中测试单个系数的重要性的一种选择,但是对于 Lasso,我认为会出现进一步的问题,这些问题不允许应用通常的 Wald 公式。例如,测试所需的方差估计不遵循通常的表达式。原始套索纸:
建议使用基于引导程序的程序来估计系数方差,这(我认为)可能需要用于测试(第 2.5 节,第 272 页的最后一段和 273 的开头):
一种方法是通过引导程序:要么可以修复或者我们可以优化对于每个引导样本。定影类似于选择(特征的)最佳子集,然后对该子集使用最小二乘标准误差
我的理解是:将 Lasso 回归反复拟合到整个数据集,直到我们找到正则化参数的最佳值(这不是引导程序的一部分),然后仅使用 Lasso 选择的特征来拟合 OLS 回归到子样本数据并应用通常的公式来计算每个回归的方差。(然后我应该如何处理每个系数的所有这些方差以获得每个系数的最终方差估计?)
此外,将通常的显着性检验(例如利用估计的 beta 和方差的 Wald 检验)与系数的 Lasso 估计和 bootstrap 估计的方差一起使用是否正确?我相当肯定它不是,但任何帮助(使用不同的测试,使用更直接的方法,无论如何......)都非常受欢迎。
根据这里的答案,我怀疑无法获得推断和 p 值。就我而言,p 值是一个外部要求(尽管我选择使用 L1 正则化)。
非常感谢
编辑 如果我只使用上一次 Lasso 逻辑回归运行选择的变量来拟合 OLS 逻辑回归怎么办?显然(见这里),
进行交叉验证后无需再次运行模型(您只需从 cv.glmnet 的输出中获取系数),事实上,如果您在没有惩罚的情况下拟合新的逻辑回归模型,那么您就违背了使用的目的套索
但是,如果我这样做的唯一目的是能够计算 p 值,同时保持较低的变量数量呢?这是一种非常肮脏的方法吗?:-)