为什么较小的权重会导致更简单的正则化模型?

机器算法验证 回归 机器学习 优化 正则化 过拟合
2022-02-04 02:38:25

大约一年前,我完成了 Andrew Ng 的机器学习课程,现在正在撰写关于逻辑回归工作原理和性能优化技术的高中数学探索。其中一种技术当然是正则化。

正则化的目的是通过扩展成本函数以包括模型简单的目标来防止过度拟合。我们可以通过将每个权重平方乘以一些正则化参数来惩罚权重的大小来实现这一点。

现在,机器学习算法的目标是减少权重的大小,同时保持训练集的准确性。这个想法是,我们将到达中间的某个点,在那里我们可以生成一个模型,该模型可以泛化数据,并且不会尝试通过降低复杂性来适应所有随机噪声。

我的困惑是为什么我们要惩罚权重的大小为什么较大的权重会创建更复杂的模型,而较小的权重会创建更简单/更平滑的模型?Andrew Ng 在他的演讲中声称这个解释很难教,但我想我现在正在寻找这个解释。

Ng 教授确实举了一个例子,说明新的成本函数如何导致特征(即 x^3 和 x^4)的权重趋向于零,从而降低模型的度数,但这并不能创建完整的解释。

我的直觉是,对于具有较大指数的特征,较小的权重往往比具有较小指数的特征更“可接受”(因为具有较小权重的特征就像函数的基础)。较小的权重意味着对高阶特征的“贡献”较小。但这种直觉并不是很具体。

4个回答

我不确定我是否真的知道我在说什么,但我会试一试。与其说具有防止过度拟合的小权重(我认为),更重要的是正则化更强烈地减少了模型空间。实际上,如果您愿意,可以通过将 X 值的 L2 范数减去 10000000 的向量来正则化大约 10000000。这也将减少过度拟合(当然,您还应该有一些这样做的理由(即,您的 Y 值可能比您的 X 值的总和大 10000000 倍,但没有人真正这样做,因为您可以重新调整数据)。

偏差和方差都是模型复杂度的函数。这与 VC 理论有关,所以看看那个。可能模型的空间越大(即所有参数基本上可以采用的值),模型越有可能过度拟合。如果您的模型可以做任何事情,从直线到在各个方向上摆动(如也可以上下波动的正弦波),那么它更有可能在数据中拾取和建模不是由潜在信号,但只是该数据集中幸运机会的结果(这就是为什么获得更多数据有助于过度拟合而不是欠拟合)。

当你正则化时,基本上你是在减少模型空间。这并不一定意味着更平滑/更平坦的函数具有更高的偏差和更少的方差。考虑一个线性模型,该模型覆盖有正弦波,该正弦波被限制为具有非常小的振幅振荡,基本上什么都不做(它基本上是一条模糊线)。这个函数在某种意义上是超级摆动的,但只比线性回归稍微过拟合。更平滑/更平坦的函数往往具有更高的偏差和更少的方差的原因是因为我们作为数据科学家假设如果我们有一个减少的样本空间,我们宁愿通过 occam 的剃刀保留更平滑和更简单的模型并丢弃模型到处摇摆不定。先扔掉摇摆不定的模型是有道理的,

像岭回归这样的正则化减少了模型空间,因为它使远离零(或任何数字)变得更加昂贵。因此,当模型面临考虑数据中的小扰动的选择时,它更有可能在不考虑的情况下犯错,因为这(通常)会增加您的参数值。如果这种扰动是由随机机会引起的(即您的 x 变量之一与您的 y 变量有轻微的随机相关性),那么模型将不会考虑与非正则化回归相比,因为非正则化回归没有成本增加 beta 大小。但是,如果这种扰动是由真实信号引起的,那么您的正则化回归将更有可能错过它,这就是它具有更高偏差的原因(以及为什么存在方差偏差权衡)。

如果您使用正则化,您不仅可以最小化样本内错误,还可以最小化OutOfSampleErrorInSampleError+ModelComplexityPenalty

更准确地说,对于假设,其中是一些参数,通常是是数据集中示例的数量,而是取决于权重的一些惩罚,这称为增广误差现在,如果权重相当小,您只能最小化上述函数。Jaug(h(x),y,λ,Ω)=J(h(x),y)+λ2mΩhHλλ(0,1)mΩwΩ=wTw

这是一些可以玩弄的 R 代码

w <- c(0.1,0.2,0.3)
out <- t(w) %*% w
print(out)

因此,我们不是惩罚整个假设空间,而是单独惩罚每个假设我们有时通过其权重向量来引用假设Hhhw

至于为什么小权重伴随着低模型复杂度,让我们看以下假设:总共我们得到了三个主动权重参数{w_1,\ dotsc现在,让我们将设置为一个非常小的值这将模型的复杂度降低到:我们只剩下两个,而不是三个主动权重参数。h1(x)=x1×w1+x2×w2+x3×w3w1,,w3w3w3=0h1(x)=x1×w1+x2×w2

故事:
我的奶奶会走路,但不会爬。有些奶奶会。一位祖母以攀登乞力马扎罗山而闻名

那座休眠火山很大。它在其基地上方 16,000 英尺处。(不要讨厌我的帝国单位。)有时它的顶部也有冰川。

如果你在没有冰川的年份攀登,并且你到达顶部,它是否与有冰川一样的顶部?海拔不一样。你必须走的路是不同的。如果冰川厚度较大的时候去山顶呢?这是否使它更具有成就感?每年约有 35,000 人尝试攀登它,但只有约 16,000 人成功。

应用:
所以我会向我奶奶解释权重的控制(也就是最小化模型复杂度),如下:

奶奶,无论您是否知道,您的大脑都是一个了不起的思想家。如果我问你认为自己登顶的 16,000 人中有多少人实际上做到了,你会说“全部”。

如果我将传感器放在所有 30,000 名登山者的鞋子上,并测量海拔高度,那么其中一些人的高度没有其他人那么高,并且可能没有资格。当我这样做时,我将使用一个恒定模型 - 我是说如果高度不等于测量的最大高度的某个百分位数,那么它不是顶部。有些人跳到顶部。有些人只是越线坐下。

我可以为传感器添加纬度和经度,并拟合一些更高阶的方程,也许我可以得到更好的拟合,并让更多的人参与进来,甚至可能正好是尝试它的总人数的 45%。

因此,假设明年是“大冰川”年或“无冰川”年,因为某些火山确实改变了地球的反照率。如果我把我今年的复杂而严格的模型应用到明年攀登的人身上,这个模型将会产生奇怪的结果。或许大家都会“过”,甚至高得过不去。也许根本没有人会通过,它会认为没有人真正完成了攀登。特别是当模型很复杂时,它往往不能很好地概括。它可能完全符合今年的“训练”数据,但是当新数据出现时,它的表现很差。

讨论:
当您限制模型的复杂性时,通常可以在没有过度拟合的情况下进行更好的泛化。使用更简单的模型,那些更能适应现实世界变化的模型,往往会产生更好的结果,其他一切都相同。

现在你有一个固定的网络拓扑,所以你说“我的参数计数是固定的”——我不能改变模型的复杂性。废话。测量权重中的熵。当熵较高时,这意味着某些系数比其他系数具有更多的“信息量”。如果您的熵非常低,则意味着通常这些系数具有相似的“信息量”水平。信息量大不一定是好事。在民主国家中,您希望所有人都平等,而乔治·奥威尔(George Orwell)之类的“比其他人更平等”是衡量制度失败的标准。如果您没有充分的理由,您希望权重彼此非常相似。

就个人而言:我更喜欢“信息标准”之类的东西,而不是使用巫术或启发式方法,因为它们使我能够获得可靠且一致的结果。 AICAICcBIC是一些常见且有用的起点。重复分析以确定解决方案的稳定性或信息标准结果的范围是一种常见的方法。人们可能会考虑在权重的熵上设置一个上限。

一个简单的直觉如下。请记住,对于正则化,应该对特征进行标准化,以便拥有大约。相同的规模。

假设最小化函数只是误差平方和:

SSE

添加更多功能可能会降低此,特别是如果该功能是从嘈杂的池中选择的。该特征偶然降低了,导致过度拟合。SSESSE

现在考虑正则化,在这种情况下是 LASSO。那么要最小化的函数是

SSE+λΣ|β|

现在添加一个额外的特征会导致额外的惩罚:绝对系数的总和变得更大!SSE 的减少应该超过增加的额外惩罚。不再可能免费添加额外的功能。

特征标准化和惩罚绝对系数之和的组合限制了搜索空间,从而减少了过拟合。

现在套索:

SSE+λΣ|β|

倾向于将系数归零,而岭回归:

SSE+λΣβ2

倾向于按比例缩小系数。这可以看作是惩罚函数类型的副作用。下图对此有所帮助:

在此处输入图像描述

在实践中,正则化惩罚函数为参数提供了一个“预算”,如上图青色区域所示。

看左边,LASSO,SSE函数很可能会命中轴上的空间;将其中一个系数设置为零,并根据预算缩小另一个。在右边,函数可以击中坐标轴,或多或少地将预算分散到参数上:导致两个参数的收缩。

图片取自https://onlinecourses.science.psu.edu/stat857/node/158

总结:正则化会惩罚添加额外的参数,并且根据正则化的类型将缩小所有系数(岭),或者将一些系数设置为 0,同时在预算允许的范围内保持其他系数(套索)