岭回归和套索回归所基于的基本论点是什么?我浏览了Tikhonov 正则化维基,其中提到
在许多情况下,选择 tikhonov 矩阵作为单位矩阵,优先考虑具有较小范数的解决方案。在其他情况下,如果相信基础向量大部分是连续的,则可以使用低通算子(例如,差分算子或加权傅里叶算子)来强制平滑。
我想了解为什么具有较小规范的解决方案更具吸引力?我可以得到平滑度,但为什么规范更小?
岭回归和套索回归所基于的基本论点是什么?我浏览了Tikhonov 正则化维基,其中提到
在许多情况下,选择 tikhonov 矩阵作为单位矩阵,优先考虑具有较小范数的解决方案。在其他情况下,如果相信基础向量大部分是连续的,则可以使用低通算子(例如,差分算子或加权傅里叶算子)来强制平滑。
我想了解为什么具有较小规范的解决方案更具吸引力?我可以得到平滑度,但为什么规范更小?
您还可以将规范惩罚的正则化视为在概念上类似于随机效应(例如,参见 Koenker 2004 第 2 节的开头,特别是第一个命题)。
根据您的背景,您可能比支持使用正则化的论点更容易接受/熟悉支持使用随机效应的论点。
无论如何,正则化的类型和随机效应的结构之间存在映射,您可以通过借鉴另一个参数来证明使用其中任何一个的合理性。
*纵向数据的分位数回归;Koenker, R. (2004)。多元分析杂志,第 91 卷,第 1 期,第 74-89 页。工作文件版本在这里
通常,人们使用保持集上的错误作为泛化错误的代理。我认为一个公平的回答是,如果在坚持测试中使用 l1 或 l2 惩罚减少了错误,那么无论你在做什么都可能是过度拟合。
现在,关于它为什么起作用:对于回归,您可以将 l2 惩罚视为参数的正常先验。也就是说,它直接表明
关于为什么套索可以改进模型的一种直觉是,如果你有一组高度相关的解释变量,套索可能会帮助你删除其中的一些。
范数是使某些系数为零的平滑方法。如果更多的系数为零,则模型更简洁,有望实现更好的泛化。