机器算法验证 - 岭回归的 AIC：自由度与参数数量 - 吾爱随笔录

岭回归的 AIC：自由度与参数数量

机器算法验证回归 aic 岭回归自由程度

2022-03-27 23:11:43

我想计算岭回归模型的 AICc。问题是参数的数量。对于线性回归，大多数人建议参数的数量等于估计系数的数量加上 sigma（误差的方差）。

当谈到岭回归时，我读到帽子矩阵的轨迹——自由度（df）——被简单地用作 AIC 公式中的参数数量（例如这里或这里）。

它是否正确？我也可以简单地使用 df 来计算 AICc 吗？我可以简单地将 +1 添加到 df 以解释误差方差吗？

1个回答

当做出某些假设时，可以使 AIC 和岭回归兼容。但是，没有单一的方法可以选择岭回归的收缩，因此没有将 AIC 应用于它的通用方法。岭回归是 Tikhonov 正则化的一个子集。有许多标准可用于为 Tikhonov 正则化选择平滑因子，例如，请参阅此。为了在这种情况下使用 AIC，有一篇论文对如何执行该正则化做出了相当具体的假设，即基于信息复杂性的正则化参数选择，用于解决病态逆问题。具体来说，这假设

“在统计框架中，……选择正则化参数α的值，并使用最大惩罚似然 (MPL) 方法……如果我们考虑具有方差的不相关高斯噪声并使用惩罚一个复杂的范数，参见上面的链接，MPL 解决方案与 Tikhonov (1963) 正则化解决方案相同。” $\sigma ^2$ $p(x) =$

那么问题就变成了，是否应该做出这些假设？所需的自由度问题仅次于 AIC 和岭回归是否在一致的上下文中使用的问题。我建议阅读链接以获取详细信息。我不是回避这个问题，只是可以使用很多东西作为脊目标，例如，可以使用优化 AIC 本身的平滑因子。所以，一个好问题值得另一个，“为什么要在山脊环境中使用 AIC？” 在某些岭回归上下文中，很难看出 AIC 是如何相关的。例如，已应用岭回归以最小化 b 的相对误差，即 min $b$ $\left [ \dfrac{\text{SD}(b)}{b}\right ]$ 由下式给出的伽马分布 (GD) 的

GD (t; a, b) = \frac{1}{t} \frac{e^{- b t} (b t)^{a}}{Γ (a)}; t \geq 0,

$\text{GD}(t; a,b) = \,\dfrac{1}{t}\;\dfrac{e^{-b \, t}(b \, t)^{\,a} }{\Gamma (a)} \;\; \;;\hspace{2em}t\geq 0 \;\; \;\;,\\ %\tabularnewline$

根据本文。特别是，这个困难的出现是因为在那篇论文中，实际上是优化了时间曲线(AUC) 下的区域，而不是优化的最大似然 (ML)适合测量的 $[0,\infty)$ $[t_1,t_n]$ 时间样本。需要明确的是，这样做是因为 AUC 是病态积分，否则，例如，使用 ML，伽马分布拟合对于被删失的时间序列将缺乏鲁棒性（例如，数据在某个最大时间停止，而 ML 不涵盖这种情况）。因此，对于该特定应用，最大似然，即 AIC，实际上是无关紧要的。（据说 AIC 用于预测，BIC 用于拟合优度。然而，预测和拟合优度都只是间接地与 AUC 的稳健测量相关。）

至于问题的答案，问题文本中的第一个参考资料说“重点是要注意是 [ Sic，平滑因子] 的减函数，其中 [ Sic，有效数的参数请参见下面的帽子矩阵轨迹] 在和在。" 这意味着等于参数的数量减去估计的数量的数量，当没有平滑时，也就是当回归与普通最小二乘法相同并减少到没有 $df$ $\lambda$ $df = p$ $\lambda = 0$ $df = 0$ $\lambda=\infty$ $df$ $df$ 随着平滑因子增加到。请注意，对于无限平滑，无论拟合什么密度函数，拟合都是一条平线。最后，的确切数量是一个函数。 $\infty$ $df$

“可以证明 )，其中 { } 是的特征值。”有趣的是，同样的参考将定义为帽子矩阵的轨迹，请参见def。 $df_{ridge}= \sum(\lambda_i / (\lambda_i + \lambda$ $\lambda_i$ $X^{\text{T}} X$ $df$

其它你可能感兴趣的问题

上一篇为什么交叉验证会给出有偏差的误差估计？下一篇对左删失数据使用标准机器学习工具