机器算法验证 - 每个参数不同的正则化参数 - 吾爱随笔录

每个参数不同的正则化参数

机器算法验证机器学习多重回归正则化

2022-03-25 04:35:56

我从未见过每个参数都有不同的正则化参数（通常是 lambda 或 alpha）。人们考虑不同的正则化参数，但我相信他们以相同的强度惩罚所有参数。

考虑具有截距和 2 个预测变量的线性回归。

正则化的建议：而不是 $\lambda \sum B_i^2$ 考虑 $\sum(\lambda_i * B_i^2)$ ，从 1 到 n，其中 i 是第 i 个参数。

虽然一般是单 $\lambda$ 将应用于所有系数，我们可能有一个 lambda 向量，每个系数一个（截距除外）。为了 $B_1$ , $\lambda$ 可能是 5，而 $\lambda$ 为了 $B_2$ 将是 10。

人们是否对不同的拟合参数使用了不同的正则化参数，是否有任何理由这样做？什么时候会有这种情况？

可以想象，从理论上讲，人们宁愿缩小一个参数而不是另一个参数。

3个回答

是的，它已经尝试过了（包括我自己——我用神经网络尝试过，但成功率参差不齐）。相关向量机(RVM) 几乎可以做到这一点，并且通过最大化边际似然来调整正则化参数。这样做的好处是它导致了一个稀疏模型，其中不包含信息的属性最终具有大的正则化参数，因此权重较小。这种方法的问题在于正则化参数的调整，这往往会导致模型选择标准过拟合（无论是基于贝叶斯还是基于交叉验证），这仅仅是因为有许多超-要调整的参数。

Adaptive Lasso (H.Zou, JASA 2006, Vol. 101, No. 476) 通过对每个变量使用单独的 lambda 来实现参数估计的一致性。Lambda 值基于 OLS 解决方案进行调整（遗憾的是，在使用 Lasso 的许多实际情况中不可用）。

如果你想/能够去非参数化，这是在mgcv包中实现的，它实现了惩罚样条。如果使用选项select=TRUE，选择平滑惩罚的优化器除了用于平滑选择的惩罚之外，还会在每个平滑项的“主效应”中添加一个惩罚项。然而，它并没有为模型的参数部分实现这一点，而且计算量很大。

其它你可能感兴趣的问题

上一篇开发公交车站预测模型下一篇神经网络建模样本量