数据挖掘 - 为什么我们采取α ∑乙2jα∑Bj2作为岭回归的惩罚？ - 吾爱随笔录

为什么我们采取α ∑乙2jα∑Bj2作为岭回归的惩罚？

数据挖掘机器学习机器学习模型岭回归

2022-02-19 01:57:28

R S S_{R I D G E} = \sum_{i = 1}^{n} (\hat{y_{i}} - y_{i})^{2} + α \sum_{i = 1}^{n} B_{j}^{2}

$RSS_{RIDGE}=\sum_{i=1}^n(\hat{y_i}-y_i)^2+\alpha\sum_{i=1}^nB_j^2$

为什么我们在这里将作为惩罚？我们添加这个术语是为了最小化机器学习模型中的方差。但是这个术语如何最小化方差。如果我添加假设或任何递增函数，那么它也会最小化方差。我想知道这个术语如何最小化错误 $\alpha\sum B_j^2$ $e^x$

1个回答

将我的评论扩展到答案。

根据定义，岭回归是最小二乘法的一种增强，特别是对于数据可能高度相关的问题（所谓的多重共线性）。

让我们假设因变量是 $y$ 和 $x_i$ 是自变量。

然后假设之间的真实映射 $X$ 和 $y$ 是：

y = \sum_{i} β_{i} x_{i}

$y = \sum_i \beta_i x_i$ .

普通最小二乘法 (OLS) 假设映射由下式给出 $\hat{\beta_i}$ 解决最小二乘问题的系数：

\hat{B} = (X^{T} X)^{- 1} X^{T} Y

$\hat{B} = (X^TX)^{-1}X^TY$

上面的公式确实最小化了平方误差 $RSS = \sum_i(y_i-\hat{y_i})^2$

但是，如果某些列在 $X$ 是相关的，那么普通最小二乘法可能无法提供最佳解决方案。

最小二乘法找到最佳且无偏的系数

您可能知道最小二乘法可以找到最适合数据的系数。要添加的另一个条件是它还找到了无偏系数。这里无偏意味着OLS不考虑哪个自变量比其他变量更重要。它只是找到给定数据集的系数。简而言之，只有一组 beta 可以找到，从而导致“残差平方和 (RSS)”最低。那么问题就变成了“RSS 最低的模型真的是最好的模型吗？”。

偏差与方差

上述问题的答案是“不是真的”。正如“无偏见”一词所暗示的那样，我们也需要考虑“偏见”。偏差意味着模型对其预测变量的关心程度如何。假设有两个模型来预测苹果价格，其中两个预测器“甜度”和“光泽”；一个模型是无偏见的，另一个是有偏见的。首先，无偏模型试图找到两个特征与价格之间的关系，就像 OLS 方法一样。该模型将尽可能完美地拟合观察结果以最小化 RSS。但是，这很容易导致过拟合问题。换句话说，模型在处理新数据时表现不佳，因为它是为给定数据构建的，因此它可能不适合新数据。有偏模型接受其变量不平等地对待每个预测变量。回到例子，我们只想关心“甜蜜”来建立一个模型，这应该在新数据上表现得更好。原因将在了解 Bias vs. Variance 后解释。如果您不熟悉偏差与方差主题，我强烈建议您观看此视频，让您深入了解。

为了影响偏差-方差权衡，岭回归在估计过程中添加了一个小的偏移量，即：

的幅度 $B$ 系数必须满足一个标准（“脊”），例如：

| B |_{2}^{2} \leq C^{2}

$|B|_2^2 \le C^2$

然后可以在最小二乘公式中添加这个约束（例如通过拉格朗日乘数）。此约束会影响偏差-方差权衡，并且在高度相关的数据或具有不相等重要性的数据等情况下可能会有所帮助。那么新的 $RSS$ 类似于您在问题中提出的问题。

再次测量平方误差以及对系数的约束，以影响偏差-方差权衡。

参考：

其它你可能感兴趣的问题

上一篇如何将时间序列数据中的经度和纬度从每日转换为每周？下一篇如何实现序列到序列模型？