考虑带有一些正则化的线性回归:例如 Find最小化
通常,A 的列被标准化为具有零均值和单位范数,而居中为零均值。我想确定我对标准化和居中原因的理解是否正确。
通过使列的手段和零,我们不再需要截距项。否则,目标将是. 通过使 A 的列的范数等于 1,我们消除了一种情况的可能性,即仅仅因为 A 的一列具有非常高的范数,它在,这可能会导致我们错误地得出 A 的那一列没有“解释”的结论好。
这种推理并不严格但直观,这是正确的思考方式吗?
考虑带有一些正则化的线性回归:例如 Find最小化
通常,A 的列被标准化为具有零均值和单位范数,而居中为零均值。我想确定我对标准化和居中原因的理解是否正确。
通过使列的手段和零,我们不再需要截距项。否则,目标将是. 通过使 A 的列的范数等于 1,我们消除了一种情况的可能性,即仅仅因为 A 的一列具有非常高的范数,它在,这可能会导致我们错误地得出 A 的那一列没有“解释”的结论好。
这种推理并不严格但直观,这是正确的思考方式吗?
您对将列的均值归零是正确的和.
但是,关于调整列的规范, 考虑一下如果你从一个规范开始会发生什么, 和所有元素大致相同。然后让我们将一列乘以,比如说,. 对应的元素在非正则回归中,将增加一个因子. 看看正则化项会发生什么?出于所有实际目的,正则化仅适用于那个系数。
通过规范列,我们凭直觉写作,将它们都放在同一个尺度上。因此,元素大小的差异与解释功能的“摆动”直接相关(),粗略地说,就是正则化试图控制的东西。没有它,在没有关于,没有关于哪个系数对“摆动”的贡献最大. (对于线性函数,如,“摆动”与偏离 0 有关。)
回到你的解释,如果一列具有非常高的范数,并且由于某种原因在,我们不会得出结论不“解释”好。 不“解释”一点也不。