解释它的简单方法是正则化有助于不适应噪声,它在确定信号的形状方面没有多大作用。如果您将深度学习视为一个巨大的光荣的函数逼近器,那么您就会意识到它需要大量数据来定义复杂信号的形状。
如果没有噪声,那么增加 NN 的复杂性会产生更好的近似值。NN 的大小不会受到任何惩罚,在任何情况下更大会更好。考虑泰勒近似,对于非多项式函数,更多的项总是更好(忽略数值精度问题)。
这在出现噪音时会失效,因为您开始适应噪音。因此,正则化可以提供帮助:它可能会减少对噪声的拟合,从而使我们能够构建更大的NN 来拟合非线性问题。
以下讨论对我的回答不是必需的,但我部分补充是为了回答一些评论并激发上述答案的主体。基本上,我的其余答案就像汉堡餐附带的法国大火,您可以跳过它。
(Ir)相关案例:多项式回归
让我们看一个多项式回归的玩具示例。它也是许多函数的一个很好的逼近器。我们将研究区域函数。从下面的泰勒级数中可以看出,7 阶展开式已经非常适合,因此我们可以预期 7+ 阶的多项式也应该非常适合:sin(x)x∈(−3,3)
接下来,我们将逐步将具有更高阶的多项式拟合到具有 7 个观测值的非常嘈杂的小型数据集:
我们可以观察到许多知情人士告诉我们的关于多项式的内容:它们是不稳定的,并且随着多项式阶数的增加而开始剧烈振荡。
然而,问题不在于多项式本身。问题是噪音。当我们将多项式拟合到噪声数据时,拟合的一部分是噪声,而不是信号。这是相同的精确多项式适合相同的数据集,但噪声已完全消除。合身很棒!
注意 6 阶视觉上的完美拟合。这不足为奇,因为我们只需要 7 次观察就可以唯一识别 6 阶多项式,而且我们从上面的泰勒近似图中看到,6 阶已经是在我们的数据范围内。sin(x)
另请注意,高阶多项式的拟合不如 6 阶,因为没有足够的观测值来定义它们。那么,让我们看看 100 次观察会发生什么。在下面的图表中,您可以看到更大的数据集如何使我们能够拟合高阶多项式,从而实现更好的拟合!
很好,但问题是我们通常处理嘈杂的数据。看看如果你对 100 个非常嘈杂的数据进行相同的观察,会发生什么,见下表。我们回到第一方:高阶多项式产生可怕的振荡拟合。因此,增加数据集对增加模型的复杂性以更好地解释数据并没有太大帮助。这又是因为复杂模型不仅更适合信号的形状,而且也更适合噪声的形状。
最后,让我们在这个问题上尝试一些蹩脚的正则化。下图显示了应用于 9 阶多项式回归的正则化(具有不同的惩罚)。将此与上述 9 阶多项式拟合进行比较:在适当的正则化水平下,可以将高阶多项式拟合到噪声数据。
以防万一不清楚:我不建议以这种方式使用多项式回归。多项式适用于局部拟合,因此分段多项式可能是一个不错的选择。用它们来拟合整个域通常是一个坏主意,因为它们对噪声很敏感,事实上,从上面的图中应该可以看出这一点。在这种情况下,噪声是数字还是来自其他来源并不重要。噪音就是噪音,多项式会对它做出热情的反应。