回归中岭正则化的解释

机器算法验证 回归 主成分分析 正则化 岭回归
2022-02-03 07:10:58

我对最小二乘环境下的岭惩罚有几个问题:

βridge=(λID+XX)1Xy

1) 该表达式表明 X 的协方差矩阵向对角矩阵收缩,这意味着(假设变量在程序之前已标准化)输入变量之间的相关性将降低。这种解释正确吗?

2) 如果是收缩应用,为什么不按照(λID+(1λ)XX),假设我们可以通过归一化以某种方式将 lambda 限制在 [0,1] 范围内。

3)什么可以归一化λ这样它就可以限制在标准范围内,例如 [0,1]。

4)对角线加一个常数会影响所有特征值。只攻击奇异值或接近奇异值会更好吗?这是否等同于将 PCA 应用于 X 并在回归之前保留前 N 个主成分,或者它是否具有不同的名称(因为它不修改交叉协方差计算)?

5)我们可以对交叉协方差进行正则化吗,或者它有什么用,意义

βridge=(λID+XX)1(γXy)

哪里有小γ会降低交叉协方差。显然这降低了所有βs 同样,但也许有一种更聪明的方法,比如取决于协方差值的硬/软阈值。

3个回答

好问题!

  1. 是的,这完全正确。您可以将岭惩罚视为处理当许多预测变量高度相关时出现的多重共线性问题的一种可能方法。引入岭惩罚有效地降低了这些相关性。

  2. 我认为这部分是传统,部分是您的第一个等式中所述的岭回归公式来自以下成本函数:

    L=yXβ2+λβ2.
    如果,则可以删除第二项,并且最小化第一项(“重构误差”)会导致的标准 OLS 公式。保留第二项导致的公式。这个成本函数在数学上处理起来非常方便,这可能是首选“非归一化”lambda 的原因之一。λ=0ββridge

  3. 的一种可能方法是通过总方差对其进行缩放,即使用而不是这不一定将限制为,但会使其“无量纲”,并且可能会导致最佳在所有实际情况下都小于(注意:这只是一个猜测!)。λtr(XX)λtr(XX)λλ[0,1]λ1

  4. “只攻击小特征值”确实有一个单独的名称,称为主成分回归。PCR 和岭回归之间的联系是,在 PCR 中,您实际上有一个“步罚”,在一定数量后切断所有特征值,而岭回归应用“软罚”,惩罚所有特征值,较小的特征值受到更多惩罚。Hastie 等人在The Elements of Statistical Learning中很好地解释了这一点。(在线免费提供),第 3.4.1 节。另请参阅我在岭回归和 PCA 回归之间的关系中的回答。

  5. 我从未见过这样做,但请注意,您可以考虑这会将您的缩小到零,而是缩小到其他一些预定义的值如果计算出数学,你将得到由这也许可以看作是“正则化交叉协方差”?

    L=yXβ2+λββ02.
    ββ0β
    β=(XX+λI)1(Xy+λβ0),

对问题 4 的进一步评论。实际上,岭回归确实非常有效地处理了的小特征值,而大多数情况下不理会大特征值。 XTX

的奇异值分解来表达岭回归估计量X

X=i=1nσiuiviT

其中个向量是相互正交的,而个向量也是相互正交的。这里的特征值为uiviXTXσi2i=1,2,,n

然后你可以证明

βridge=i=1nσi2σi2+λ1σi(uiTy)vi.

现在,考虑“过滤因子”如果,则过滤因子为 1,我们得到传统的最小二乘解。如果,则过滤因子本质上为 1。如果,则此因子本质上为 0。因此,对应于小特征值的项有效地退出,而对应于较大特征值的项被保留。 σi2/(σi2+λ)λ=0λ>0σi2λσi2λ

相比之下,主成分回归在此公式中仅使用因子 1(对于较大的特征值)或 0(对于丢弃的较小特征值)。

问题 1、2 和 3 是相互关联的。我喜欢认为是的,在线性回归模型中引入岭惩罚可以解释为的特征值的收缩。为了做出这种解释,首先必须假设居中。这种解释基于以下等价性: 其中如果,紧随其后的是XX

λx+y=κ(αx+(1α)y),
α=λ1+λκ=1+λ0λ<+0<α1

您描述为“仅攻击[ing]奇异值或接近奇异值”的技术也称为奇异谱分析(出于线性回归的目的)(参见方程式 19),如果“攻击”是指“去除”。交叉协方差不变。

去除低奇异值也是由Principal Component Regression完成的。执行 PCA并对获得的组件的选择应用线性回归。与 SSA 的不同之处在于它对交叉协方差有影响。X