我从未见过每个参数都有不同的正则化参数(通常是 lambda 或 alpha)。人们考虑不同的正则化参数,但我相信他们以相同的强度惩罚所有参数。
考虑具有截距和 2 个预测变量的线性回归。
正则化的建议:而不是考虑 ,从 1 到 n,其中 i 是第 i 个参数。
虽然一般是单将应用于所有系数,我们可能有一个 lambda 向量,每个系数一个(截距除外)。为了,可能是 5,而为了将是 10。
人们是否对不同的拟合参数使用了不同的正则化参数,是否有任何理由这样做?什么时候会有这种情况?
可以想象,从理论上讲,人们宁愿缩小一个参数而不是另一个参数。