每个参数不同的正则化参数

机器算法验证 机器学习 多重回归 正则化
2022-03-25 04:35:56

我从未见过每个参数都有不同的正则化参数(通常是 lambda 或 alpha)。人们考虑不同的正则化参数,但我相信他们以相同的强度惩罚所有参数。

考虑具有截距和 2 个预测变量的线性回归。

正则化的建议:而不是λBi2考虑 (λiBi2),从 1 到 n,其中 i 是第 i 个参数。

虽然一般是单λ将应用于所有系数,我们可能有一个 lambda 向量,每个系数一个(截距除外)。为了B1,λ可能是 5,而λ为了B2将是 10。

人们是否对不同的拟合参数使用了不同的正则化参数,是否有任何理由这样做?什么时候会有这种情况?

可以想象,从理论上讲,人们宁愿缩小一个参数而不是另一个参数。

3个回答

是的,它已经尝试过了(包括我自己——我用神经网络尝试过,但成功率参差不齐)。相关向量机(RVM) 几乎可以做到这一点,并且通过最大化边际似然来调整正则化参数这样做的好处是它导致了一个稀疏模型,其中不包含信息的属性最终具有大的正则化参数,因此权重较小。这种方法的问题在于正则化参数的调整,这往往会导致模型选择标准过拟合(无论是基于贝叶斯还是基于交叉验证),这仅仅是因为有许多超-要调整的参数。

Adaptive Lasso (H.Zou, JASA 2006, Vol. 101, No. 476) 通过对每个变量使用单独的 lambda 来实现参数估计的一致性。Lambda 值基于 OLS 解决方案进行调整(遗憾的是,在使用 Lasso 的许多实际情况中不可用)。

如果你想/能够去非参数化,这是在mgcv包中实现的,它实现了惩罚样条。如果使用选项select=TRUE,选择平滑惩罚的优化器除了用于平滑选择的惩罚之外,还会在每个平滑项的“主效应”中添加一个惩罚项。然而,它并没有为模型的参数部分实现这一点,而且计算量很大。