我需要一些帮助来理解 LARS 算法中的变量排名与使用 OLS 来估计 LARS 选择的最终模型之间的关系。
我知道 LARS 算法比前向逐步回归更不贪心,因为它不需要额外的预测变量与残差和已经包含的预测变量正交。但是在 LARS 对变量进行排序并选择了包含在模型中的最佳预测变量数之后,我们使用 OLS 来估计模型。OLS 参数与分配给 LARS 中预测变量的参数不同,对吧?那么如何直观地解释为什么在 LARS 选择的模型上先使用 LARS 再使用 OLS 是正确的呢?
我需要一些帮助来理解 LARS 算法中的变量排名与使用 OLS 来估计 LARS 选择的最终模型之间的关系。
我知道 LARS 算法比前向逐步回归更不贪心,因为它不需要额外的预测变量与残差和已经包含的预测变量正交。但是在 LARS 对变量进行排序并选择了包含在模型中的最佳预测变量数之后,我们使用 OLS 来估计模型。OLS 参数与分配给 LARS 中预测变量的参数不同,对吧?那么如何直观地解释为什么在 LARS 选择的模型上先使用 LARS 再使用 OLS 是正确的呢?
来自 LARS 的系数估计值将缩小(偏向)为零,并且缩小的强度对于预测来说可能不是最理想的(过于苛刻)。
然而,一些收缩应该是好的,因为在偏差和方差之间存在权衡。例如,如果 lasso 碰巧选择了相关的回归器并且只选择了它们(当然这在实践中永远无法保证),那么您可以证明正(因此非零)的脊型收缩量是最佳的* - 就像您一样可以在没有变量选择的基本线性模型中显示它(例如,参见 Andrew M 在线程“在什么条件下岭回归能够提供对普通最小二乘回归的改进?”的回答)。(我不知道你是否可以为 LARS 类型的收缩展示这一点,但直觉上我不认为零收缩总是最佳的。)
这就是(1)松弛套索(Meinshausen,2007)的动机,其中有两个收缩参数:一个用于变量选择的更苛刻的参数和一个更软的保留变量系数);或 (2) LARS-OLS,其中保留变量的系数没有收缩。
*从某种意义上说是最优的,它使估计器的均方误差最小化
迈因斯豪森,尼古拉。“放松的套索。” 计算统计和数据分析52.1 (2007): 374-393。