正则化二项式逻辑回归的方差-协方差矩阵l1l1

机器算法验证 物流 参考 推理 套索 正则化
2022-04-19 06:05:30

给定设计矩阵和响应向量,我想找到系数来自正则化逻辑回归,正则化参数XRn×py{0,1}nβ^l1λ>0

如果我理解正确,则没有封闭形式的解决方案,因为惩罚对数似然函数是不可微分的。Tibshirani ( 1996 ) 和 Li 和 Fan ( 2001 )提出了近似值中的非零系数Bootstrap 和 Bayesian lasso ( 2010 ) 是计算标准误差的其他方法,但我认为它们对我的目的来说计算量太大。这里有一个问题,其答案仅适用于正则化逻辑回归。l(β|X,y,λ)β^l2

有没有其他快速和准确的替代方案来计算常客套索逻辑回归中的系数的方差 - 协方差矩阵?

1个回答

(这个答案更像是一个评论而不是一个完整的答案,但我在这里发布它,因为我没有足够的代表发表评论。)

这是一个很难给出好的答案的问题。即使在不受惩罚的情况下,参数的协方差估计也是基于正态近似。当你开始惩罚时,你也进入了“选择后推理”的领域,这是一个活跃的研究领域。GLM(包括逻辑回归)的选择后推理工作尚处于起步阶段,但请参阅 [1] 以获取最近的参考。我相信本文中描述的方法是在selectiveInference R包[2]中实现的。

即使忽略数学困难,您的问题也存在固有的哲学困难。估计量的协方差矩阵与频率论框架中重复抽样下的覆盖率相关。如果您有一个新样本,则不能保证选择相同的变量,那么我们甚至可以以合理的方式定义“覆盖率”吗?有许多不同(有效)的方式来定义覆盖率,每一种方式都引发了关于如何定义和执行选择后推理的不同思想流派。

[1] J.泰勒,R.蒂布希拉尼。“L1 惩罚似然模型的选择后推断。” 加拿大统计杂志(出现)。 http://doi.org/10.1002/cjs.11313

[2] https://cran.r-project.org/package=selectiveInference