我刚刚注意到,当使用岭回归时,惩罚参数有一个小细节,即我们不惩罚。有人可以给我一个简单直观的解释,说明为什么将截距排除在正则化组件之外很重要吗?
我假设以下优化表达式:
其中是我们数据集中的数据点数,是特征数。另请注意,通过定义以捕获函数中。
谢谢!
我刚刚注意到,当使用岭回归时,惩罚参数有一个小细节,即我们不惩罚。有人可以给我一个简单直观的解释,说明为什么将截距排除在正则化组件之外很重要吗?
我假设以下优化表达式:
其中是我们数据集中的数据点数,是特征数。另请注意,通过定义以捕获函数中。
谢谢!
我会给你一个不严谨但直观的理由来解释为什么拦截没有受到惩罚。当我们估计一个惩罚模型时,我们通常对预测变量进行缩放和居中。这意味着截距估计为结果变量的平均值。
请注意,结果变量的平均值是我们可以做出的最简单的预测(除了预测与结果无关的随机数,在这种情况下为什么要使用数据,对吧?)。除了简单之外,当我们不考虑任何其他变量时,样本均值也是平方损失的最小值。
惩罚截距意味着在极端情况下,当所有模型参数都缩小到 0 时,我们会使模型的预测偏离样本均值。这将导致比我们可以做出的预测更差,或者换一种说法,我们实际上可以进一步最小化平方误差。