LARS-OLS 混合背后的基本原理是什么,即对 LARS 选择的变量使用 OLS 估计?

机器算法验证 回归 套索 正则化 拉尔斯
2022-03-22 10:12:59

我需要一些帮助来理解 LARS 算法中的变量排名与使用 OLS 来估计 LARS 选择的最终模型之间的关系。

我知道 LARS 算法比前向逐步回归更不贪心,因为它不需要额外的预测变量与残差和已经包含的预测变量正交。但是在 LARS 对变量进行排序并选择了包含在模型中的最佳预测变量数之后,我们使用 OLS 来估计模型。OLS 参数与分配给 LARS 中预测变量的参数不同,对吧?那么如何直观地解释为什么在 LARS 选择的模型上先使用 LARS 再使用 OLS 是正确的呢?

1个回答

来自 LARS 的系数估计值将缩小(偏向)为零,并且缩小的强度对于预测来说可能不是最理想的(过于苛刻)。

然而,一些收缩应该是好的,因为在偏差和方差之间存在权衡。例如,如果 lasso 碰巧选择了相关的回归器并且只选择了它们(当然这在实践中永远无法保证),那么您可以证明正(因此非零)的脊型收缩量是最佳的* - 就像您一样可以在没有变量选择的基本线性模型中显示它(例如,参见 Andrew M 在线程“在什么条件下岭回归能够提供对普通最小二乘回归的改进?”的回答)。(我不知道你是否可以为 LARS 类型的收缩展示这一点,但直觉上我不认为零收缩总是最佳的。)

这就是(1)松弛套索(Meinshausen,2007)的动机,其中有两个收缩参数:一个用于变量选择的更苛刻的参数和一个更软的保留变量系数);或 (2) LARS-OLS,其中保留变量的系数没有收缩。

*从某种意义上说是最优的,它使估计器的均方误差最小化

迈因斯豪森,尼古拉。“放松的套索。” 计算统计和数据分析52.1 (2007): 374-393。