我知道在构建预测模型时正则化的好处(偏差与方差,防止过度拟合)。但是,我想知道当回归模型的主要目的是推断系数(查看哪些预测变量具有统计显着性)时,进行正则化(套索、岭、弹性网)是否是一个好主意。我很想听听人们的想法以及任何学术期刊或非学术文章的链接。
在进行统计推断时使用正则化
使用 ridge 类型的惩罚和 lasso 类型的惩罚进行估计之间存在重大差异。岭型估计器倾向于将所有回归系数缩小到零并且有偏差,但由于它们不会将任何变量缩小到完全零,因此易于推导渐近分布。在随后的假设检验中,岭估计的偏差可能会出现问题,但我不是这方面的专家。另一方面,Lasso/elastic-net 类型的惩罚将许多回归系数缩小到零,因此可以被视为模型选择技术。对基于数据选择的模型进行推理的问题通常称为选择性推理问题或选择后推理。近年来,该领域取得了许多发展。
在模型选择之后执行推理的主要问题是选择会截断样本空间。举个简单的例子,假设我们观察到 ,并且只有在有证据表明它大于零时才想估计然后,我们估计如果对于某些预先指定的阈值。在这种情况下,我们仅在绝对值大于不再是正态的,而是被截断的正态。
类似地,Lasso(或弹性网络)以这样一种方式约束样本空间,以确保所选模型已被选中。这种截断比较复杂,但可以用解析来描述。
基于这一见解,人们可以根据数据的截断分布进行推断,以获得有效的测试统计数据。有关置信区间和检验统计量,请参见 Lee 等人的工作。(2016): 精确的选择后推理,应用于套索
他们的方法在 R 包中实现optionalInference。
模型选择后的最优估计(和测试)在(套索)中讨论:套索的可处理的 后选择最大似然推断 | 康奈尔大学统计档案
及其(远不那么全面的)软件包可在: selectiveMLE by ammeir2 | GitHub
术语“正则化”涵盖了非常广泛的方法。出于这个答案的目的,我将缩小范围以表示“惩罚优化”,即为您的优化问题或
如果是这样,那么答案是肯定的“是的!嗯有点”。
这样做的原因是,在似然函数中添加或惩罚会导致与在获得后验分布的可能性之前添加拉普拉斯或高斯 a完全相同的数学函数(电梯间距:先验分布描述了参数的不确定性在看到数据之前,后验分布描述了看到数据后参数的不确定性),这导致了贝叶斯统计 101。贝叶斯统计非常流行,并且一直以推断估计效果为目标。
那是“是的!” 部分。“好吧”是优化您的后验分布,称为“最大后验”(MAP)估计。但是大多数贝叶斯不使用 MAP 估计,他们使用 MCMC 算法从后验分布中采样!这有几个优点,一个是它倾向于在方差分量中具有较少的向下偏差。
为简洁起见,我尽量不详细介绍贝叶斯统计,但如果你对此感兴趣,那就是开始寻找的地方。
如果您尝试基于“哪些预测变量在统计上显着”来使用回归进行推理,我特别推荐 LASSO——但不是出于您可能期望的原因。
在实践中,模型中的预测变量往往是相关的。即使没有实质性的多重共线性,回归在相关预测变量集中选择“显着”预测变量也可能因样本而异。
所以,是的,继续为你的回归做 LASSO。然后对原始数据中的多个引导样本(几百个左右)重复完整的模型构建过程(包括交叉验证以选择 LASSO 惩罚)。看看以这种方式选择的“重要”预测变量集的可变性有多大。
除非您的预测变量彼此高度正交,否则此过程应该让您在解释回归中的 p 值时三思而后行,即哪些单个预测变量“显着”重要。