机器算法验证 - 回归中需要对数据进行中心化和标准化 - 吾爱随笔录 - 问答

回归中需要对数据进行中心化和标准化

机器算法验证回归套索正则化标准化

2022-02-13 07:41:24

考虑带有一些正则化的线性回归：例如 Find $x$ 最小化 $||Ax - b||^2+\lambda||x||_1$

通常，A 的列被标准化为具有零均值和单位范数，而 $b$ 居中为零均值。我想确定我对标准化和居中原因的理解是否正确。

通过使列的手段 $A$ 和 $b$ 零，我们不再需要截距项。否则，目标将是 $||Ax-x_01-b||^2+\lambda||x||_1$ . 通过使 A 的列的范数等于 1，我们消除了一种情况的可能性，即仅仅因为 A 的一列具有非常高的范数，它在 $x$ ，这可能会导致我们错误地得出 A 的那一列没有“解释”的结论 $x$ 好。

这种推理并不严格但直观，这是正确的思考方式吗？

1个回答

您对将列的均值归零是正确的 $A$ 和 $b$ .

但是，关于调整列的规范 $A$ , 考虑一下如果你从一个规范开始会发生什么 $A$ , 和所有元素 $x$ 大致相同。然后让我们将一列乘以，比如说， $10^{-6}$ . 对应的元素 $x$ 在非正则回归中，将增加一个因子 $10^6$ . 看看正则化项会发生什么？出于所有实际目的，正则化仅适用于那个系数。

通过规范列 $A$ ，我们凭直觉写作，将它们都放在同一个尺度上。因此，元素大小的差异 $x$ 与解释功能的“摆动”直接相关（ $Ax$ )，粗略地说，就是正则化试图控制的东西。没有它，在没有关于 $A$ ，没有关于哪个系数对“摆动”的贡献最大 $Ax$ . （对于线性函数，如 $Ax$ ，“摆动”与偏离 0 有关。）

回到你的解释，如果一列 $A$ 具有非常高的范数，并且由于某种原因在 $x$ ，我们不会得出结论 $A$ 不“解释” $x$ 好。 $A$ 不“解释” $x$ 一点也不。

其它你可能感兴趣的问题

上一篇为什么要使用 ANOVA 而不是直接跳到事后或计划的比较测试？下一篇如何从数据的随机抽样中估计唯一出现次数？