正则化范数和L_2范数实证研究大号1L1大号2L2

机器算法验证 r 回归 机器学习 正则化
2022-03-12 22:55:25

有许多方法可以执行正则化——例如基于L0L1L2范数的正则化。根据Friedman Hastie & Tibsharani的说法,最佳正则化器取决于问题:即真实目标函数的性质、使用的特定基、信噪比和样本大小。

是否有任何实证研究比较各种正则化方法的方法和性能?

2个回答

让我们考虑一个惩罚线性模型。

惩罚不是很常用,经常被数学上更灵活的L_1范数L0L1

正则化具有构建稀疏模型的特性这意味着只有少数变量具有非 0 回归系数。如果您假设只有少数变量对输出变量有实际影响,则特别使用它。如果存在非常相关的变量,则仅选择其中一个具有非 0 系数的变量。L1

惩罚就像在输入矩阵的对角线上添加一个例如,它可以用于变量数量大于样本数量的情况。为了得到一个方阵。使用范数惩罚,所有变量都具有非零回归系数。L2λL2

@Donbeo 的答案的一些补充

1)L0范数不是真正意义上的范数。它是向量中非零条目的数量。这个规范显然不是凸规范,也不是真正意义上的规范。因此,您可能会看到诸如 L0 'norm' 之类的术语。它变成了一个组合问题,因此是 NP 难的。

2)L1范数给出了一个稀疏解(查找LASSO)。Candes、Donoho 等人的开创性结果表明,如果真解非常稀疏,则 L1 惩罚方法将恢复它。如果底层解决方案不是稀疏的,那么在 p>>n 的情况下,您将无法获得底层解决方案。有很好的结果表明套索是一致的。

3) 有像 Zhou 和 Hastie 的 Elastic net 这样的方法,结合了 L2 和 L1 惩罚解决方案。