关于岭回归标准化的问题

机器算法验证 回归 标准化
2022-01-21 19:34:11

嘿伙计们,我发现了一两篇使用岭回归的论文(用于篮球数据)。如果我运行岭回归,我总是被告知要标准化我的变量,但我只是被告知要这样做,因为岭是尺度变量(岭回归并不是我们课程的真正一部分,所以我们的讲师略读了一下)。

我阅读的这些论文没有标准化它们的变量,这让我感到有些惊讶。他们还通过交叉验证得到了较大的 lambda 值(大约 2000-4000 水平),我被告知这是由于没有标准化变量。

不标准化的变量究竟是如何导致高 lambda 值的,以及一般不标准化变量的后果是什么?真的有这么大吗?

任何帮助深表感谢。

2个回答

岭回归通过对系数的大小施加惩罚来正则化线性回归。因此,系数朝着零和彼此收缩。但是当这种情况发生时,如果自变量没有相同的尺度,收缩是不公平的。两个不同尺度的自变量会对惩罚项有不同的贡献,因为惩罚项是所有系数的平方和。为了避免此类问题,通常将自变量居中并缩放以使方差为 1。

[稍后编辑以回答评论]

现在假设您有一个自变量现在,人的身高可能以英寸、米或公里为单位。如果以公里为单位,比在标准线性回归中,我认为它会给出比以毫米为单位的更大的系数项。height

带有 lambda 的惩罚项与表示平方损失函数的平方和小于或等于给定常数的系数相同。这意味着,较大的 lambda 为系数的平方和提供了很大的空间,而较低的 lambda 则为较小的空间。更大或更小的空间意味着更大或更小的系数绝对值。

如果不使用标准化,那么拟合模型可能需要较大的系数绝对值。当然,由于变量在模型中的作用,我们可能自然会有很大的系数值。我要说的是,由于没有缩放,该值可能具有人为夸大的值。因此,缩放也减少了对大系数值的需求。因此,λ 的最佳值通常会更小,这对应于较小的系数平方值之和。

虽然晚了四年,但希望有人能从中受益....按照我的理解,coeff 是自变量(dy / dx)中单位变化的目标变量变化量。假设我们正在研究体重和身高之间的关系,体重以公斤为单位。当我们使用千米表示高度时,您可以想象大多数数据点(人类身高)紧密排列。因此,对于身高的微小变化,体重将发生巨大变化(假设体重随身高增加)。dy /dx 的比率会很大。另一方面,如果高度以毫米为单位,数据将在高度属性上广泛传播。一个单位的高度变化不会有显着的重量变化 dy /dx 将非常小,几乎接近于 0。