收缩方法解决了什么问题?

机器算法验证 套索 岭回归 正则化 拉尔斯
2022-02-12 02:14:03

假期让我有机会在《统计学习要素》中蜷缩在火边。从(频繁的)计量经济学的角度来看,我很难掌握收缩方法的使用,如岭回归、套索和最小角度回归 (LAR)。通常,我对参数估计本身以及实现无偏性或至少一致性感兴趣。收缩方法不会那样做。

在我看来,当统计学家担心回归函数对预测变量过于敏感时使用这些方法,它认为预测变量比实际更重要(通过系数的大小来衡量)。换句话说,过拟合。

但是,OLS 通常会提供无偏且一致的估计值。(脚注)我一直认为过度拟合的问题不是给出太大的估计值,而是给出太小的置信区间,因为没有考虑到选择过程( ESL 提到了后一点)。

无偏/一致的系数估计导致对结果的无偏/一致的预测。与 OLS 相比,收缩方法将预测推向更接近平均结果,似乎将信息留在了桌面上。

重申一下,我看不出收缩方法试图解决什么问题。我错过了什么吗?

脚注:我们需要全列排名条件来识别系数。误差的外生性/零条件均值假设和线性条件期望假设决定了我们可以对系数给出的解释,但即使这些假设不正确,我们也会得到无偏或一致的估计。

4个回答

我怀疑您想要更深入的答案,我必须让其他人提供,但我可以从松散的概念角度给您一些关于岭回归的想法。

OLS 回归产生无偏的参数估计(即,如果收集此类样本并无限期估计参数,则参数估计的抽样分布将以真实值为中心)。此外,抽样分布将具有所有可能的无偏估计的最低方差(这意味着,平均而言,OLS 参数估计将比其他一些无偏估计过程的估计更接近真实值)。这是旧消息(我很抱歉,我知道你很清楚这一点),然而,方差较低的事实并不意味着它非常. 在某些情况下,抽样分布的方差可能大到使 OLS 估计量基本上毫无价值。(可能发生这种情况的一种情况是存在高度多重共线性时。)

在这种情况下该怎么办?好吧,可以找到具有较低方差的不同估计量(尽管显然,鉴于上述规定,它必须是有偏差的)。也就是说,我们正在用无偏性换取较低的方差。例如,我们得到的参数估计可能更接近真实值,尽管可能略低于真实值。这种权衡是否值得是分析师在面对这种情况时必须做出的判断。无论如何,岭回归就是这样一种技术。以下(完全捏造的)图旨在说明这些想法。

在此处输入图像描述

提供了关于岭回归的简短、简单、概念性的介绍。我对 lasso 和 LAR 知之甚少,但我相信可以应用相同的想法。有关套索和最小角度回归的更多信息可以在这里找到,“简单解释...”链接特别有用。 提供了有关收缩方法的更多信息。

我希望这有点价值。

估计器的误差是(平方)偏差和方差分量的组合。但是在实践中,我们希望将模型拟合到特定的有限数据样本,并且我们希望最小化在我们实际拥有的特定数据样本上评估的估计器的总误差,而不是在某些样本总体上平均为零误差(我们没有)。因此,我们希望同时减少偏差和方差,以最小化误差,这通常意味着牺牲无偏性以更大程度地减少方差分量。在处理方差可能很高的小型数据集时尤其如此。

我认为焦点的差异取决于一个人是否对程序的属性感兴趣,或者对特定样本获得最佳结果。常客通常会发现前者更容易在该框架内处理。贝叶斯主义者通常更关注后者。

我想有几个答案可能适用:

  • 当预测变量矩阵不是满列秩时,岭回归可以提供识别。
  • 当预测变量的数量大于观察的数量(非奇异问题的另一个变体)时,可以使用 Lasso 和 LAR。
  • Lasso 和 LAR 是自动变量选择算法。

我不确定关于岭回归的第一点是否真的是一个特征。我认为我宁愿改变我的模型来处理非识别。即使没有模型更改,OLS 在这种情况下也提供了对结果的独特(且无偏见/一致)预测。

我可以看到第二点有什么帮助,但是在参数数量超过观察数量同时产生无偏/一致估计的情况下,前向选择也可以工作。

最后一点,例如,向前/向后选择很容易自动化。

所以我仍然没有看到真正的优势。

这是 Biostatistics 的一个基本应用示例

假设我正在研究卵巢癌的存在与一组基因之间的可能关系。

我的因变量是二进制(编码为 0 或 1)我的自变量对来自蛋白质组数据库的数据进行编码。

正如许多遗传学研究中常见的那样,我的数据比它高得多。我有 216 个不同的观察结果,但可能有 4000 个左右的预测变量。

线性回归是正确的(系统太可怕了)。

特征选择技术确实不可行。使用 4,000 多个不同的自变量,所有可能的子集技术都完全不可能,甚至顺序特征选择也是值得怀疑的。

最好的选择可能是使用带有弹性网络的逻辑回归。

我想做特征选择(确定哪些自变量很重要),所以岭回归确实不合适。

完全有可能有超过 216 个自变量具有重大影响,所以我可能不应该使用套索(套索无法识别出比你观察到的更多的预测变量)......

进入弹性网...