岭回归的 PRESS 统计量

机器算法验证 回归 交叉验证 岭回归
2022-03-16 19:56:36

在普通最小二乘法中,回归目标向量y针对一组预测变量X,帽子矩阵计算为

H=X(XtX)1Xt

PRESS(预测的残差平方和)由下式计算

SSP=i(ei1hii)2

在哪里ei是个i残差和hii是帽子矩阵的对角元素。

在带惩罚系数的岭回归中λ,帽子矩阵被修改为

H=X(XtX+λI)1Xt

是否可以使用修改后的帽子矩阵以相同的方式计算 PRESS 统计量?

2个回答

是的,我在核岭回归中经常使用这种方法,这是选择岭参数的好方法(参见例如本文[doi , preprint])。

如果以规范形式执行计算(参见例如本文),则对最佳岭参数的搜索可以非常有效,其中模型被重新参数化,因此需要对角矩阵的逆矩阵。

可以采用以下方法应用 L2 正则化并获得 PRESS 统计量。该方法使用数据增强方法。

假设您有 N 个 Y 样本和 K 个解释变量 X1,X2...Xk....XK

  1. 添加额外的变量 X0,它在 N 个样本中为 1
  2. 增加 K 个额外样本,其中:
    • 每个 K 个样本的 Y 值为 0
    • 每个 K 个样本的 X0 值为 0
    • 如果在对角线上,Xk 值为 SQRT(Lambda * N) * [STDEV(Xk) over N 个样本],否则为 0
  3. 现在有 N+K 个样本和 K+1 个变量。使用这些输入可以解决正常的线性回归。
  4. 由于这是一步完成的回归,因此可以正常计算 PRESS 统计量。
  5. 必须决定 Lambda 正则化输入。查看 Lambada 不同输入的 PRESS 统计数据有助于确定合适的值。