可能的重复
在 Andrew Ng 的 Coursera 机器学习课程中,我遇到了以下示例。
即实际正则化参数的倒数。
L2 正则化代价表达式为
对于黑色分类器,我们有
对于品红色分类器,我们有
品红色分类器的正则化成本很低,但它似乎仍然过拟合数据,反之亦然黑色分类器。这是怎么回事?L2 正则化倾向于使系数接近于零。但这对减少过度拟合有何帮助?
我的直觉是,对特定功能的重视程度不大。但是有时不是需要专注于一个特性吗(比如上面的例子)?
可能的重复
在 Andrew Ng 的 Coursera 机器学习课程中,我遇到了以下示例。
即实际正则化参数的倒数。
L2 正则化代价表达式为
对于黑色分类器,我们有
对于品红色分类器,我们有
品红色分类器的正则化成本很低,但它似乎仍然过拟合数据,反之亦然黑色分类器。这是怎么回事?L2 正则化倾向于使系数接近于零。但这对减少过度拟合有何帮助?
我的直觉是,对特定功能的重视程度不大。但是有时不是需要专注于一个特性吗(比如上面的例子)?
品红色分类器的正则化成本很低,但它似乎仍然过拟合数据,反之亦然黑色分类器。这是怎么回事?L2 正则化倾向于使系数接近于零。但这对减少过度拟合有何帮助?
过度拟合不仅仅是关于训练数据发生的事情。这是关于训练数据和样本外的比较。如果你的训练损失很低,但你的样本外损失很大,那么你就过拟合了。如果你的训练损失很低,并且你的样本外损失很低,那么恭喜!您有一些证据表明您的模型可以很好地概括。
所以如果我们在这里应用这个定义,很明显我们不能说模型是过拟合还是欠拟合,因为没有与样本外数据的比较。
正则化可以通过阻止模型估计过于复杂的决策边界来帮助过度拟合。如果远离其他 X 且靠近 Os 的 X 不能代表整个过程(即是怪癖)。
我的直觉是,对特定功能的重视程度不大。但是有时不是需要专注于一个特性吗(比如上面的例子 x1)?
防止“对特定特征赋予过多权重”并不是正则化所做的,但听起来更像是正则化(这往往会导致权重分布更均匀)。 正则化惩罚大系数(或鼓励系数接近零)。
我所做的区别很微妙,但重点是在正则化中,模型可以“将鸡蛋全部放在一个篮子中”,并且具有少量大系数和许多接近零的系数。当只有几个高度相关的特征时,这是可取的。
对截距应用正则化是不寻常的。如果省略截距正则化,黑色分类器的正则化惩罚较低。然而,这还不足以让我们得出关于哪个模型的任何结论,因为我们没有关于样本外泛化(甚至关于样本内损失)的信息。
正则化并不能保证减少过拟合。
正则化在许多情况下减少了过拟合,因为在这些情况下,真实数据模型(例如物理模型)具有较小的权重。正则化是将这些知识注入我们的模型的一种方式。它会剔除那些权重较大的模型,这些模型往往是过度拟合的模型。
但是,在模拟中,您绝对可以构建一个具有较大权重的模型并从中生成数据。正则化可能不适用于此类数据。我猜,在这种情况下,正则化会产生很大的偏差。但这种数据在现实世界中是很少见的。
我的直觉是,对特定功能的重视程度不大。但是有时不是需要专注于一个特性吗(比如上面的例子 x1)?
向后缩放10 倍来使分类器赋予更多权重。然后黑色边界将非常接近洋红色边界。这相当于维度上的分量打了折扣,但是使左侧的红十字成为异常值的主要原因是它在维度上与同一类中的其余数据点相距较远. 通过缩小,我们正在减少异常值在总损失中的贡献。
实际上,我们无法从这个例子中判断洋红色边界是否过拟合。这就像说我们不能确定左下角的红十字是否是异常值一样。我们必须查看其他样本(如测试集)才能更加确定。
只是为了讨论,假设我们确定左边的红十字确实是一个异常值。我认为,如果不是我们没有对某个特定特征给予足够的权重,那么问题在于,对于硬边距分类器,决策边界对异常值很敏感,因为大部分成本来自一个单一的数据点。在这种情况下,正则化并没有真正的帮助。在确定决策边界时涉及更多数据点的软边界分类器将导致边界接近以黑色标记的边界。