回归中需要对数据进行中心化和标准化

机器算法验证 回归 套索 正则化 标准化
2022-02-13 07:41:24

考虑带有一些正则化的线性回归:例如 Findx最小化||Axb||2+λ||x||1

通常,A 的列被标准化为具有零均值和单位范数,而b居中为零均值。我想确定我对标准化和居中原因的理解是否正确。

通过使列的手段Ab零,我们不再需要截距项。否则,目标将是||Axx01b||2+λ||x||1. 通过使 A 的列的范数等于 1,我们消除了一种情况的可能性,即仅仅因为 A 的一列具有非常高的范数,它在x,这可能会导致我们错误地得出 A 的那一列没有“解释”的结论x好。

这种推理并不严格但直观,这是正确的思考方式吗?

1个回答

您对将列的均值归零是正确的Ab.

但是,关于调整列的规范A, 考虑一下如果你从一个规范开始会发生什么A, 和所有元素x大致相同。然后让我们将一列乘以,比如说,106. 对应的元素x在非正则回归中,将增加一个因子106. 看看正则化项会发生什么?出于所有实际目的,正则化仅适用于那个系数。

通过规范列A,我们凭直觉写作,将它们都放在同一个尺度上。因此,元素大小的差异x与解释功能的“摆动”直接相关(Ax),粗略地说,就是正则化试图控制的东西。没有它,在没有关于A,没有关于哪个系数对“摆动”的贡献最大Ax. (对于线性函数,如Ax,“摆动”与偏离 0 有关。)

回到你的解释,如果一列A具有非常高的范数,并且由于某种原因在x,我们不会得出结论A不“解释”x好。 A不“解释”x一点也不。