目前正在学习岭回归,我对更复杂模型的惩罚(或更复杂模型的定义)有点困惑。
据我了解,模型复杂性不一定与多项式阶数相关。所以:是一个比
而且我知道正则化的目的是保持模型复杂度低,例如我们有一个五阶多项式
为 0 的参数越多越好。
但我不明白的是,如果它是同阶多项式,为什么较低的参数值会受到较少的惩罚?那么为什么会:
是一个比
它们都是相同的多项式阶,参数值只是简单地依赖于数据。
谢谢!
目前正在学习岭回归,我对更复杂模型的惩罚(或更复杂模型的定义)有点困惑。
据我了解,模型复杂性不一定与多项式阶数相关。所以:是一个比
而且我知道正则化的目的是保持模型复杂度低,例如我们有一个五阶多项式
为 0 的参数越多越好。
但我不明白的是,如果它是同阶多项式,为什么较低的参数值会受到较少的惩罚?那么为什么会:
是一个比
它们都是相同的多项式阶,参数值只是简单地依赖于数据。
谢谢!
参数值仅取决于数据
这是你问题的关键部分。这就是你感到困惑的地方。
是的,参数值取决于数据。但是当我们拟合模型时,数据是固定的。换句话说,我们拟合了一个以观察为条件的模型。比较适合不同数据集的不同模型的复杂性是没有意义的。
在固定数据集的上下文中,模型
确实更接近最简单的可能模型,即平零模型,而不是
无论您的观察规模如何,这都是成立的。
顺便说一句,截距(和)通常不会受到惩罚,例如,在大多数 Lasso 公式中,因为我们通常擅长让它自由变化以捕获观察的整体平均值。换句话说,我们将模型缩小到观察值的平均值,而不是完全零模型(零通常是任意的)。从这个意义上说,平板和平板模型将被视为同样复杂。