有许多方法可以执行正则化——例如基于、和范数的正则化。根据Friedman Hastie & Tibsharani的说法,最佳正则化器取决于问题:即真实目标函数的性质、使用的特定基、信噪比和样本大小。
是否有任何实证研究比较各种正则化方法的方法和性能?
有许多方法可以执行正则化——例如基于、和范数的正则化。根据Friedman Hastie & Tibsharani的说法,最佳正则化器取决于问题:即真实目标函数的性质、使用的特定基、信噪比和样本大小。
是否有任何实证研究比较各种正则化方法的方法和性能?
让我们考虑一个惩罚线性模型。
惩罚不是很常用,经常被数学上更灵活的L_1范数
正则化具有构建稀疏模型的特性。这意味着只有少数变量具有非 0 回归系数。如果您假设只有少数变量对输出变量有实际影响,则特别使用它。如果存在非常相关的变量,则仅选择其中一个具有非 0 系数的变量。
惩罚就像在输入矩阵的对角线上添加一个值。例如,它可以用于变量数量大于样本数量的情况。为了得到一个方阵。使用范数惩罚,所有变量都具有非零回归系数。
@Donbeo 的答案的一些补充
1)L0范数不是真正意义上的范数。它是向量中非零条目的数量。这个规范显然不是凸规范,也不是真正意义上的规范。因此,您可能会看到诸如 L0 'norm' 之类的术语。它变成了一个组合问题,因此是 NP 难的。
2)L1范数给出了一个稀疏解(查找LASSO)。Candes、Donoho 等人的开创性结果表明,如果真解非常稀疏,则 L1 惩罚方法将恢复它。如果底层解决方案不是稀疏的,那么在 p>>n 的情况下,您将无法获得底层解决方案。有很好的结果表明套索是一致的。
3) 有像 Zhou 和 Hastie 的 Elastic net 这样的方法,结合了 L2 和 L1 惩罚解决方案。