机器算法验证 - 截距上的岭回归精妙 - 吾爱随笔录 - 问答

截距上的岭回归精妙

机器算法验证机器学习岭回归

2022-04-03 02:35:56

我刚刚注意到，当使用岭回归时，惩罚参数有一个小细节，即我们不惩罚。有人可以给我一个简单直观的解释，说明为什么将截距排除在正则化组件之外很重要吗？ $\theta_0$

我假设以下优化表达式：

{\hat{θ}}_{ridge} = \underset{θ}{argmin} \sum_{i \leq n} (y_{i} - f (x_{i}))^{2} + λ \sum_{1 \leq i \leq d} θ_{i}^{2}

$\hat{\theta}_{\textrm{ridge}} = \underset{\theta}{\operatorname{argmin}} \quad \sum_{i \leq n} (y_i - f(x_i))^2 + \lambda \sum_{1 \leq i \leq d} \theta_i^2$

其中是我们数据集中的数据点数，是特征数。另请注意，通过定义以捕获函数中。 $n$ $d+1$ $(\theta_0, \ldots, \theta_d)$ $f(x_i)$ $x_i := [1 \quad x_i]^T$ $\theta_0$

谢谢！

1个回答

我会给你一个不严谨但直观的理由来解释为什么拦截没有受到惩罚。当我们估计一个惩罚模型时，我们通常对预测变量进行缩放和居中。这意味着截距估计为结果变量的平均值。

请注意，结果变量的平均值是我们可以做出的最简单的预测（除了预测与结果无关的随机数，在这种情况下为什么要使用数据，对吧？）。除了简单之外，当我们不考虑任何其他变量时，样本均值也是平方损失的最小值。

惩罚截距意味着在极端情况下，当所有模型参数都缩小到 0 时，我们会使模型的预测偏离样本均值。这将导致比我们可以做出的预测更差，或者换一种说法，我们实际上可以进一步最小化平方误差。

其它你可能感兴趣的问题

上一篇在逻辑回归模型中有数千个 df 是否正常？下一篇时间序列分析与预测有何不同？