例如,在进行回归时,要选择的两个超参数通常是函数的容量(例如多项式的最大指数)和正则化的量。我感到困惑的是,为什么不选择低容量函数,然后忽略任何正则化?这样,它就不会过拟合。如果我有一个高容量函数和正则化,那不就等于有一个低容量函数和没有正则化吗?
为什么在多项式回归中使用正则化而不是降低度数?
我最近在浏览器应用程序中做了一点,你可以用它来玩这些想法:Scatterplot Smoothers (*)。
这是我编写的一些数据,具有低次多项式拟合
很明显,二次多项式不够灵活,无法很好地拟合数据。我们有非常高的偏差区域,在和之间,所有数据都低于拟合,而在之后,所有数据都在曲线之上。
为了摆脱偏见,我们可以将曲线的次数增加到三,但问题仍然存在,三次曲线仍然过于僵化
所以我们继续增加度数,但是现在我们遇到了相反的问题
这条曲线过于密切地跟踪数据,并且倾向于向数据中的一般模式不太好的方向飞走。这就是正则化的用武之地。具有相同的度数曲线(十)和一些精心选择的正则化
我们真的很合身!
值得重点关注上面精心选择的一个方面。当您将多项式拟合到数据时,您有一组离散的度数选择。如果三度曲线欠拟合而四度曲线过拟合,则中间无处可去。正则化解决了这个问题,因为它为您提供了一系列连续的复杂性参数。
您如何声称“我们非常合身!”。对我来说,它们看起来都一样,即不确定。你用哪个理性来决定什么是合适的和不合适的?
有道理。
我在这里所做的假设是,一个拟合良好的模型应该在残差中没有可辨别的模式。现在,我不是在绘制残差,所以你在看图片时需要做一些工作,但你应该可以发挥你的想象力。
在第一张图片中,二次曲线拟合数据,我可以在残差中看到以下模式
- 从 0.0 到 0.3,它们大约均匀地放置在曲线的上方和下方。
- 从 0.3 到大约 0.55,所有数据点都在曲线上方。
- 从 0.55 到大约 0.85,所有数据点都在曲线下方。
- 从 0.85 开始,它们都再次位于曲线上方。
我将这些行为称为局部偏差,有些区域的曲线不能很好地逼近数据的条件平均值。
将此与上次拟合与三次样条进行比较。我无法通过眼睛挑选出任何拟合看起来不像它精确地穿过数据点的质心的区域。这通常(尽管不准确)是我所说的合适的意思。
最后说明:以这一切为例。在实践中,我不建议对高于的任何次数使用多项式基展开。他们的问题在其他地方得到了很好的讨论,但是,例如:
- 即使使用正则化,它们在数据边界处的行为也可能非常混乱。
- 它们在任何意义上都不是本地的。在一个地方更改数据可能会显着影响在一个非常不同的地方的拟合。
相反,在您描述的情况下,我建议使用自然三次样条和正则化,这可以在灵活性和稳定性之间取得最佳折衷。您可以通过在应用程序中安装一些样条线来亲自查看。
(*) 我相信这仅适用于 chrome 和 firefox,因为我使用了一些现代 javascript 功能(以及在 safari 和 ie 中修复它的整体懒惰)。源代码在这里,如果你有兴趣。
不,不一样。例如,将没有正则化的二阶多项式与有正则化的四阶多项式进行比较。后者可以根据用于选择正则化过程的惩罚大小的任何过程(可能是交叉验证),为三次和四次幂设定大系数,只要这似乎可以提高预测准确性。这表明正则化的好处之一是它允许您自动调整模型复杂度以在过拟合和欠拟合之间取得平衡。
对于多项式,即使系数的微小变化也会对较高的指数产生影响。
正则化(最小二乘法)通常鼓励许多小系数,但没有一个恰好为 0,因此高阶单项式能够产生影响。
所有的答案都很好,我和 Matt 进行了类似的模拟,给你另一个例子来说明为什么带有正则化的复杂模型通常比简单模型更好。
我做了一个类比来有直观的解释。
- 案例1你只有一个知识有限的高中生(没有正则化的简单模型)
- 案例2你有一个研究生,但限制他/她只能使用高中知识来解决问题。(具有正则化的复杂模型)
如果两个人解决同一个问题,通常研究生会更好地解决问题,因为这些知识的经验和见解。
图 1 显示了相同数据的 4 个拟合。4个配件是线,抛物线,三阶模型和五阶模型。您可以观察到 5 阶模型可能存在过拟合问题。
另一方面,在第二个实验中,我们将使用具有不同正则化水平的五阶模型。将最后一个与二阶模型进行比较。(突出显示了两个模型)您会发现最后一个模型与抛物线相似(大致具有相同的模型复杂度),但对数据的灵活性稍好一些。